什么是搜索引擎?搜索引擎的历史
概括地说,搜索引擎的工作方式是抓取网站制作页面、处理网页和提供检索服务.每个独立的搜索引擎都有自己的网页抓取程序(Spider) , Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称为网页快照。由于互联网中超链接的应用很普遍,理论上讲,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词(Keywords),建立索引文件,其他的还包括去除重复网页、分析超链接、计算网页的重要度等。用户输人关键词进行检索时,搜索引擎从索引数据库中找到匹配该关键词的网页。为了便于用户判断,除了网页标题和网址(URL)外,还会提供一段来自网页的摘要以及其他信息。
1.搜索引单的历史
所有搜索引擎的祖先都是Archie,它是1990年由加拿大麦吉尔大学的学生Alan Emtage,Peter Deutsch和Bill Wheelan发明的。虽然当时www还未广泛应用,但网络中的文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,Alan Emtage等人就想开发一个可以用文件名查找文件的系统,于是便有了Archie,Archie是一个可搜索的FTP文件名列表,用户必须输人精确的文件名进行搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。因此,Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。由于Archie深受欢迎,受
其启发,美国内华达大学的研究人员于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica( Veronica FAQ). J ughead是后来的另一个Gopher搜索工具。
搜索引擎一般由爬行器(Spider,机器人/蜘蛛)、索引生成器和查询检索器三部分组成。专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
世界上第一个Spider程序是麻省理工学院的Matthew Gray开发的World Wide Web Wanderer,用于追踪互联网的发展规模.起初它只用来统计互联网上的服务器数量,后来则发展成为也能够捕获URL。
1994年7月,美国卡内基·梅隆大学的Michael Mauldin将John Leavitt的蜘蛛程序接人到其索引程序中,创建了Lycos。同年4月,美国斯坦福大学的博士生David Filo和美籍华人杨致远(Jerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深人人心。从此搜索引擎进人了高速发展时期。目前,互联网上有名字的搜索引擎已达数百个,其检索的信息量也与从前不可同日而语.以Google为例,其数据库中存放的网页已达30亿之巨!
2.几个搜索引攀简介
下面简要介绍几个常用的搜索引擎。
(1)Google
Google搜索引擎的界面如图6-18所示。Google原来只是斯坦福大学的一个小项目BackRub. 1995年博士生Larry Page开始学习搜索引擎设计,并于1997年9月15日注册T google. com域名。1997年底,在Sergey Brin,Scott Hassan和Alan Steremberg的共同参与下,BachRub开始提供Google的演示版。1999年2月,Google完成T从Alpha版到Beta版的蜕变。
Google在Page rank、动态摘要、网页快照、Daily refresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,持久地改变了搜索引擎的定义.2006年新版的《韦氏大学辞典》中收录了100多个新词。在这本一向以保守、严肃著称的辞典中,收录了互联网搜索引擎Google,意思是“在互联网上迅速地查找信息”。
(2)百度
目前,百度(www. baidu. com)是全球最大的中文搜索引擎,其界面如图6-19所示.2000年1月,前Infoseek资深工程师李彦宏与好友徐勇(加州大学伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2000年5月,百度开始为门户网站(如搜狐、新浪等)提供搜索技术服务,之后发布Baidu. com搜索引擎Beta版,开始独立提供搜索服务。
(3) Alltheweb
诞生于1999年5月的Alltheweb是一个优秀的全文搜索引擎,除了搜索常规网页外,也能搜索新闻、图片、视频、音频等内容,其目标是做世界上最大、最快的搜索引擎,其界面如图6-20所示。
(4) Ask. Com
Ask. Com是以提问方式进行搜索的搜索引擎,用户可以输人一个问题,搜索得到想要的答案,其界面如图6-21所示.
3.搜索引的分类
搜索引擎常分为全文索引引擎、目录索引和元搜索引擎三类。
(1)全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外的代表有Google,国内则有百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序,即“蜘蛛”程序或“机器人”程序,能自建网页数据库,搜索结果直接从自建的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
(2)目录索引
顾名思义,目录索引就是将网站分门别类地存放在相应的目录(Directory)中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找.如果以关键词搜索,则返回的结果与全文搜索引擎一样,也是根据信息关联程度排列网站(其中的人为因素要多一些)。
如果按分层目录查找,某一目录中网站的排名则由标题字母的先后顺序决定(也有例外)。
与全文搜索引擎相比,目录索引有许多不同之处。
首先,全文搜索引擎属于自动网站检索,而目录索引的建立则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览用户的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳用户的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功.而目录索引对网站的要求则要高得多,有时即使登录多次也不一定能成功。此外,在登录搜索引擎时,人们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录中。最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为用户提交的网站目录、网站信息不合适。他可以随时对其进行调整,当然事先是不会和用户商量的。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像Yahoo!这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。
(3)元搜索引擎
元搜索引擎(Meta Search Engine)接收用户的查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace,Dogpile, Vivisim。等,中文元搜索引擎的典型代表是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo,目前搜索引擎正处于高速发展的阶段,各主要大型搜索引擎都是基于分布式计算的。
简单地说,分布式系统就是由多台服务器共同协作组成的系统,从而能够检索海量信息。以Google为例,它由上万台服务器组成,以提供较好的检索性和抗压性.抗压性是指在一个几秒钟的时间段内,服务器处理大量并发请求的能力。
现在搜索引擎技术的主要发展空间在搜索的准确度上,除了传统的网页排序算法(指对搜索结果进行排序的规则),如Page rank, Hill top等,也与自然语言的研究进展密切相关。
推荐新闻
更多行业-
网站建设的费用一般与功能要求是成正比的
祝您能够建设出成功的网站制作,如半年到一年时间进行较大规模改版等。很多...
2012-09-21 -
网站改版的优势
在实施众多的网站改版项目中,我们体会到:目前很多客户在北京建设网站之前...
2015-01-20 -
网站建设成功的因素有哪些
如今随着网站建设市场不断的完善,企业对网站建设制作的品质也是越来越苛求...
2019-10-14 -
医院网站制作的四大不足是什么?
医院网站制作的热度近年来开始升温,所以有些网站还有很多功能不完善。我们...
2021-12-22 -
SEO网站优化之外链和收录不稳定我们如何应对
SEO网站优化之外链和收录不稳定我们如何应对对百度这样经常小更新和大更...
2011-12-18 -
网站建设是目的还是手段
随着电子商务的发展,北京网站建设的公司也越来越多的,北京是网站建设最集...
2012-08-12
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com