第三代搜索引擎
(编辑:jimmy 日期: 2024/11/15 浏览:3 次 )
第三代搜索引擎
第三代搜索引擎一词在2004年的曝光率(或者叫做“媒体可见性”)非常高,重要原因之一是国内服务商竞相推出“第三代搜索引擎”。
2004年8月3日,国内知名门户网站搜狐正式推出全新独立域名专业搜索网站“搜狗”(www.sogou.com),并声称该搜索引擎是全球首家第三代中文互动式搜索引擎服务提供商。
根据搜狐网站上的说明,“第一代搜索是主要依靠人工分拣的分类目录搜索,以搜狐和雅虎为标志;第二代搜索是依靠机器抓取,建立在超链分析基础上的网页搜索”,那么什么是第三代搜索引擎呢?
搜狐网站上的专题文章“第三代搜索引擎揭密”(IT.SOHU.COM
2004-08-03 12:45 转自: 搜狐IT )中是这么介绍第三代搜索引擎的:
“互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。不论我们想从互联网中寻找清华北大的网址、李小龙的图片,或者养猫的方法,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。
搜索引擎是对计算机科学与技术的极大发挥,将理论研究和工程开发完美结合,创造了非凡的用户体验和文化。以Google为代表的传统搜索引擎,在用户输入一个查询词时,返回和此查询词相关的网页摘要,并尽可能将用户需要的结果排在了前面。但搜索引擎毕竟不会“猜心术”,对于一个词,通常用户会有不同的需求,比如对于“绿茶”,人们要的可能分别是茶文化、健康知识、电影介绍、化妆品或者其他。(大多数)用户并不能够通过一两个词,精确表达自己所想要的内容,搜索引擎也无能为力只有返回大量的结果供用户选择。
搜狐首推的第三代搜索——互动式搜索,在用户输入一个查询词时,尝试理解用户可能的查询意图,给与多个主题的搜索提示,引导用户更快速准确定位自己所关注的内容。
(另一个好处:在用户搜索冲浪时,给与用户未曾意识到的主题提示)”
该文中同时介绍了第三代搜索引擎的产品特点:
互动式搜索:互动式搜索是在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果
分类导航:针对部分查询结果项,扩展到类似或相关网站
查询精确相关:先进的分词引擎,并利用搜狐4000万用户名优化分词引擎的人名识别。在查询结果中,剔出了页面中仅在链接文字上包含
查询词的网页数据量,收录2亿中文网页,超过Google收录量。
更新速度:每天更新最重要的网站和新闻
(以上信息来自搜狐IT新闻
http://it.sohu.com/20040803/n221336473.shtml)
不过,关于“搜狗”是全球第一个“第三代中文互动式搜索引擎”
的观点,一些研究文章并不如此认为。早在2003年11月份就有新闻报道称慧聪宣布发布第三代搜索引擎:
“最近,国内企业慧聪宣布发布第三代搜索引擎。据慧聪CTO陈沛介绍,相对于前两代,第三代中文搜索引擎更注重智能化和用户使用的个性化,其采用了中文自动分类、自动聚类等人工智能技术,而且使用了中文内容分析技术,以及区域智能识别技术,增强了搜索引擎的查询能力。”【详见“慧聪发布第三代搜索引擎
国内市场规模三年要达20亿” http://news.xinhuanet.com/newmedia/2003-11/10/content_1169677.htm】
因此,对于搜狗和慧聪(后来将搜索引擎独立出来改称“中搜”)谁是第一个第三代搜索引擎的问题,至今并没有定论。而据一些研究资料中的信息,如果从技术上来划分,从1998年开始就进入了第三代搜索引擎。
下面有关搜索引擎发展历程的归纳资料选自2001年6月完成的学士毕业论文《第四代搜索引擎——主题搜索引擎的设计与实现》(北京大学计算机科学技术系计算机软件专业
作者:罗昶),其中也介绍了第三代搜索引擎的特点。
“搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:
第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information
Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World
Web Worm (WWWW)平均每天承受大约1500次查询。
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
自1998年到现在【网络营销教学网站注:应该指该论文写作的时间,即2001年】,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索引擎为第三代搜索引擎。第三代搜索引擎的发展有如下几个特点:
1.索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。
2.除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户站点开始使用该技术。
3.由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google系统和IBM的Clever系统作出了很大的贡献;另一类是用户信息的反馈,DirectHit系统采用的就是这种方法。
4.开始使用自动分类技术。Northern
Light和Inktomi的Directory Engine都在一定程度上使用了该技术。
2000年搜索引擎2000年大会上,按照Google公司总裁Larry
Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页。
(以上相关资料来源
http://www.cs.ucla.edu/~lc/paper/4th%20generation%20search%20engine.doc)
尽管对于第三代搜索引擎年代的划分和主要特性至今没有统一的认识,不过至少可以肯定的是:第三代搜索引擎是对第二代搜索引擎在搜索技术上的改进,主要增加了互动性和个性化等高级的技术,为用户使用搜索引擎获取信息获得更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少价值——尤其是为企业利用搜索引擎开展网络营销增加了哪些价值,目前并没有非常令人信服的研究结论。这也就是目前所谓的第三代搜索引擎并没有表现出太多优势的原因之一。
【说明】:由于不同研究者的观点差异,对于搜索引擎年代和指标的划分有所区别,这也是本文和“第一代搜索引擎和第二代搜索引擎”一文中部分观点不太一致的原因。
下一篇:第四代搜索引擎