利用www搜索引擎检索
搜索引擎是互联网上提供信息搜索服务的平台,是应用最广泛的网络服务工具。我们现在通常使用的搜索引攀基本上是运行于WWW中的,所以也可以称为WWW搜索引攀。随着网络信息越来越渗入普通人的生活,搜索引攀已经成为互联网上一种热门和关键的技术,研究与开发的竞赛此起彼伏,从未停止。我们之所以能轻点”数亿计的Internet网页信息,全倚仗互联网中上千个搜索引攀兢兢业业不断地进行着发现、抓取、存储、索引并提供网络信息检索服务的工作。它们正朝着专业化、本土化、生活化方向迈进。WWW搜索引擎按其运作方式差异可划分为三种类型:目录网站、全文搜索引擎和元搜索引擎。
一、目录网站
日录网站建设属早期的WWW信息搜索工具,其工作方式是由人工进行网络信息的收集、整理,以分类主题形式呈现和浏览。由于人工成本极高,技术含里比较低。从本质上讲算不上真正的搜索引攀,所以至今不受人重视,几乎全部目录网站后来都开发了自己独立的新一代的搜索引攀,演变成常见的关键词搜索形式,如新浪、搜狐、中国雅虎目前都己难觅当初目录浏览风格的踪影,仅有少数还保留着原始网站分类搜索的特征。最著名的网站目录当数Yahoo中文的网站目录从出现的时间排序有搜狐、网易、新浪等,国外有LookSmart. About等,目录网站有如下特点。
①基于树型目录浏览网络信息,简单,易用。以树型目录结构组织的信息资游,具有严密的系统性和良好的可扩充性,该月录加入了人类智稼,屏蔽了网络资深系统相对于用户的复杂性,可以提高信息的准确性,导航质量高。②资源分类目录不够细致。网络信息资派的庞杂性,决定了很难确定一个全面的范畴体系作为主题树结构的基础来涵盖所有的网络信息资源。为了保证主题的可用性和结构的清晰性,范畴体系的类目也不宜过多,这就使一方面有些特殊的类别无处可寻,另一方面大量的Web页因没有包含在目录中而被忽略。随着Web的增长,这个问题会越来越严重。利用聚类或其他自动分类(包括自然语言处理,相关顶抽取等)的方法仍然不能让人满意。并且还会出现机器自动得到的类与人工分类的结果不相同的问题。⑧由于人工介入、维护量大、信息呈相对少、信息更新不及时等,所以为使用户得到更多的信息,这种目录网站常把查询送到其他搜索引擎上,对整个Web进行搜索。当今的目录网站与全文搜索引擎是相互融合的,用户基本不能区分。如Yahoo曾经采用Google的搜索引攀提供页面搜索,Google则采用“OpenDirectory”目录提供分类查询,搜索界面也几乎是千篇一律。
二、全文搜索引攀
全文搜索引擎被称为真正的搜索引擎,与网站目录的区别在于它不再使用人工参与的信息搜索与分类,全部采用软件程序来搜集、索引、检索网络信息,全文搜索引攀的结构由四部分组成。
(I)搜索器。搜索器或称网络机器人。是一种网络自动搜索软件,通常称为“蜘蛛”(spider)、爬虫(crawler)或机器人(robots)等。“蜘蛛”唯一的工作就是在Web中漫游发现和收集信息,它每天可以“爬行”大约一千万个网页,尽可能多快地收集各种类型的新信息。同时因为Web的信息更新很快,所以还要定期更新已经收集过的旧信息,以免死链接和无效链接。收集信息的策略有两个。第一,从一组URL (资源定位器)开始,顺粉这些URL中的超链接,以宽度优先或深度优先方式递归地在Web中抽取信息。这些起始URL常常是一些非常流行的、包含很多链接的站点,例如Yahoo的分类节点;第二,可以通过设置“添加网址”栏,允许网络信息作者主动给搜索引擎提供网页地址,但这种方法常受到垃圾网页制造的轰击,几乎有95%通过添加网址栏提交的网址被拒收。搜索引攀采用的搜索信息策略不同,如搜索频率、搜索对象等会造成每个搜索引擎的搜索结果、质量之间存在差异。
(2)索引器。 索引器或称为标引程序。它的功能是分析收集器所收集的信息,进行自动标引,将文档表示为一种便于检索的形式并储存在索引库中,也就是建立倒排文档。倒排文档中的每个标引项都包含一组指针,指向它出现的网页。为了给用户提供有关被检出文档的信息,标引中还包含每个页面的简单描述,如产生日期、大小、标题、子标题和摘要等。
(3)检索器。检索器或称为检索软件,它的功能是根据用户的查询,在索引库中快速检索出相关文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并能够实现某种用户相关反馈机制(即可以对检索策略的不断修正)。检索器被视为搜索引擎中最复杂的部分,其中包含关于检索结果的排序的重要问题。研究者发现用户不可能耐心地去浏览动辄上万的搜索结果,而只会注意到最前几页的搜索结果,光靠点击率和词频来简单排序的方法显然有缺陷。
三、元搜索引攀
元搜索引攀又称多搜索引擎,这类搜索引攀没有自己的海量数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去排序等处理后再将结果返回给用户。按其搜索机制可分为并行式和串行式。并行式元搜索引攀指将查询要求问时发向各个独立的搜索引攀。然后将结果按特定的顺序提供给用户。串行式元搜索引攀是将查询耍求先发给某个独立的搜索引擎,待其返回结果后再将请求发给另一个搜索引攀。
推荐新闻
更多行业-
分享5个高效的网站页面设计技巧
互联网上的商业存在与街头商店传播的图像相同或更重要。网页和在线商店是实...
2020-06-18 -
网页设计的一些基本概念
记住和理解下边所述的基本概念对网页设计与创作是有帮助的。HTML(Hy...
2014-07-21 -
网络金融环境下世界金融市场的新特点
人类在进步的同时,与网络相关的 网站设计、网络金融,网上交易也在不断的...
2014-09-30 -
电子商务网站运营包括哪些内容
知乎问答:电子商务网站运营包括哪些内容?用户潘欣的解答:我不知道每个电...
2012-02-03 -
网络营销存在都有什么意义?
1.什么是网络营销 网络营销是以现代营销理论为基础,利用网络对产品的...
2019-07-10 -
新站总是不被搜索引擎收录的原因有哪些
网站优化,在一般的情况下面,即使他做的再查,搜索引擎也不会一点都不收录...
2018-08-06
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com