网络搜索引擎
网络搜索引擎(英語:)是設計在萬維網上進行搜尋,意思是指自动从万维网搜集特定的信息,提供给用户进行查询的系统。
「网络搜索引擎」的各地常用別名 | |
---|---|
中国大陸 | |
臺灣 | |
港澳 | |
馬新 |
本條目屬於網路搜索引擎系列 |
網路搜索引擎 |
元搜索引擎 |
國際性搜索引擎(多语言) |
Yahoo! Search |
Bing |
仅中文搜索引擎 |
百度 |
360 |
搜狗 |
yam蕃薯藤 |
PChome Online |
中國搜索 |
其他搜索引擎 |
DuckDuckGo |
Exalead |
Naver |
Yandex |
Alexa Internet |
AOL |
Ask.com |
Qwant |
其他链接 |
搜尋結果通常會以行列式的連結展示,亦稱為搜尋結果頁 (Search engine results page,SERP)。這些訊息連結可能是連至網頁、圖像、影片、信息圖表、文章、研究論文或其他類型的檔案。 一些搜索引擎亦會在其他的數據庫或目錄中搜索可用數據。與依靠人工維持的網站目錄不同,搜索引擎進行的實時搜尋,是以網絡爬蟲 (web crawler)進行運行算法得出來。而沒法被搜尋出來的是稱為深網 (deep web)。
工作原理
搜索引擎的工作原理大致可以分为:
- 搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来連上每一個網頁上的超鏈接。机器人程序根据网页链到其中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,連到數據庫上所有到其他网页的链接。理论上,若網頁上有適當的超鏈接,机器人便可以遍历绝大部分网页。
- 整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。
- 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
整理信息及接受查询的过程,大量应用了文本信息检索技术,并根据网络超文本的特点,引入了更多的信息。
發展史
時間線(全列表) | ||
---|---|---|
年份 | 引擎 | 事件 |
1993 | W3Catalog | 啟用 |
Aliweb | 啟用 | |
JumpStation | 啟用 | |
1994 | WebCrawler | 啟用 |
Niranjan | 啟用 | |
Infoseek | 啟用 | |
Lycos | 啟用 | |
1995 | AltaVista | 啟用 |
Open Text Web Index | 啟用 | |
Magellan | 啟用 | |
Excite | 啟用 | |
SAPO | 啟用 | |
1996 | Dogpile | 啟用 |
Inktomi | 成立 | |
HotBot | 成立 | |
Ask Jeeves | 成立 | |
1997 | Northern Light | 啟用 |
Yandex | 啟用 | |
1998 | 啟用 | |
1999 | AlltheWeb | 啟用 |
GenieKnows | 成立 | |
Naver | 啟用 | |
Teoma | 成立 | |
Vivisimo | 成立 | |
2000 | 百度 | 成立 |
Exalead | 成立 | |
2003 | Info.com | 啟用 |
2004 | Yahoo! Search | 最終版啟用 |
A9.com | 啟用 | |
Sogou | 啟用 | |
2005 | MSN Search | 最終版啟用 |
Ask.com | 啟用 | |
GoodSearch | 啟用 | |
SearchMe | 成立 | |
2006 | wikiseek | 成立 |
Quaero | 成立 | |
Ask.com | 啟用 | |
Live Search | 啟用 | |
ChaCha | Beta版啟用 | |
Guruji.com | Beta版啟用 | |
2007 | wikiseek | 啟用 |
Sproose | 啟用 | |
Wikia Search | 啟用 | |
Blackle.com | 啟用 | |
2008 | Powerset | 啟用 |
Picollator | 啟用 | |
Viewzi | 啟用 | |
Cuil | 啟用 | |
Boogami | 啟用 | |
LeapFish | Beta版啟用 | |
Forestle | 啟用 | |
VADLO | 啟用 | |
Sperse! Search | 啟用 | |
DuckDuckGo | 啟用 | |
Searchme | 啟用 | |
2009 | Bing | 啟用 |
Microsoft Academic Search | Beta版啟用 | |
Freeoo.org | Beta版啟用 | |
Fusionsearch | 啟用 | |
Cooeo | Beta版啟用 | |
Yebol | Beta版啟用 | |
Mugurdy | 啟用 | |
Goby | 啟用 | |
2016 | LinAsk!恆問 | 成立 |
新奇站 | 成立 | |
2017 | Goonle | 成立 |
1990年初當時萬維網還未出現,為了查詢散佈在各個分散的主機中的文件,曾有過Archie、Gopher等搜索工具,隨著互聯網的迅速發展,基於HTTP訪問的web技術的迅速普及,他們就不再能適應用戶的需要。在1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜索。同年4月,Yahoo目錄誕生,隨著訪問量和收錄鏈接數的增長,開始支持簡單的數據庫查詢。這就是我們說的早期的目錄導航系統,他們的缺點是網站收錄/更新都要靠人工維護,所以在信息量劇增的條件下,就不是非常受用了。
1994年7月,Lycos推出了基於robot的數據發掘技術,並支持搜索結果相關性排序,並且他第一個開始在搜索結果中使用了網頁自動摘要。Infoseek也是同時期的一個重要代表,他們是史上一個重要的進步。
1995年,一種新的搜索引擎工具出現了——中介搜索引擎(Meta Search Engine)或稱為元搜索引擎,第一個中介搜索引擎是華盛頓大學的學生開發的Metacrawler。用戶只需提交一次搜索請求,由中介搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。
1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜索引擎的頂峰,它第一個支持自然語言搜索的搜索引擎,具備了基於網頁內容分析,智能處理的能力,第一個實現高級搜索語法的搜索引擎(如AND、OR、NOT等),同時AltaVista還支持搜索新聞群組,搜索圖片等具有劃時代意義的功能。同時期還有inktomi、HotBot等搜索引擎。
1997年8月Northernlight公司正式推出搜索引擎,它第一個支持對搜索結果進行簡單的自動分類,也是當時擁有最大數據庫的之一。
1998年台灣PChome的前身todo網站成立。
1998年10月,Google誕生。它是目前世界上最流行的搜索引擎之一,具備很多獨特而且優秀的功能,並且在界面等實現了革命性創新。
1999年5月,Fast (Alltheweb)公司發布了自己的搜索引擎AllTheWeb,它的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。它曾經是最流行的搜索引擎之一,後在2003年2月被Overture收購。
在中文搜索引擎領域,1996年8月成立的搜狐公司是最早參與作網絡信息分類導航的網站,曾一度自詡“出門找地圖,上網找搜狐”的誇大廣告詞。由於其人工分類提交的局限性,隨著網絡信息的暴增,逐漸被基於robot自動抓取智能分類的新一代信息技術取代。
台灣中正大學吳昇教授所領導的GAIS實驗室1998年1月創立了Openfind中文搜索引擎,是最早開發的中文智能搜索引擎,採用GAIS實驗室推出多元排序(PolyRankTM)核心技術,截止2002年6月,宣布累計抓取網頁35億,開始進入英文搜索領域。
北大天網是教育網最流行的搜索引擎,它由北大計算機系網絡與分佈式系統研究室開發,於1997年10月29日正式在CERNET上提供服務,2000年初成立天網搜索引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜索功能。
百度中文搜索由超鏈分析專利發明人、前Infoseek資深工程師李彥宏和好友徐勇2000年1月創建,目前支持網頁信息檢索,圖片,Flash,音樂等多媒體信息的檢索。並且百度在中文領域第一個開始使用ppc經營模式。
2002年開始很多公司受搜索市場前景和Google神話的吸引,積極進入搜索引擎市場,謀求一席之地。但是不幸的是他們當中很多公司尤其是不少中國公司採用流氓手段進行自己搜索引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等等,比較惡劣的典型公司是中搜、3721等等。中搜是由慧聰國際主持開發的,自稱是搜索領域的後起之秀。目前處於起步階段,但是採用流氓軟件手段推廣後,強佔了不少用戶的搜索引擎選擇。2003年年底慧聰搜索改名為中國搜索,推出第三代智能搜索引擎。中國搜索主推桌面搜索——網絡豬,是备受争议的流氓軟件之一。
2003年11月,Yahoo全資收購3721公司。2005年8月,阿里巴巴和Yahoo達成戰略合作,全資收購雅虎中國,並更名為阿里巴巴雅虎,並將其業務重點全面轉向搜索領域。
2004年8月3日,搜狐公司推出中文搜索引擎搜狗。
2006年9月,微軟公司正式推出了擁有自主研發技術的Live Search,宣布進軍搜索引擎市場,挑戰Google在網絡搜索領域的霸主地位。
2009年6月1日,微軟正式上線原名為Kumo的搜索引擎Bing,中文名“必應”,但是由於不久後的“六四事件”20週年,Bing只在中國上線了1天即被防火長城封鎖,6月6日,Bing解封。
2009年11月,微軟學術搜索Microsoft Academic Search beta版啟用,該搜索引擎目前主要提供計算機學科及相關領域的學術論文、作者、會議和學術期刊。
2016年12月,LinAsk!恆問推出LinAsk!恆問搜尋引擎。
2017年4月,LinAsk!恆問推出應搜搜尋引擎。
分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、垂直搜索引擎(Vertical Search Engine)和元搜索引擎(Meta Search Engine)。
- 全文搜索引擎
- 全文搜索引擎是名副其实的搜索引擎,歐美具代表性的有Google、Fast/AllTheWeb、 AltaVista、Inktomi、Teoma、WiseNut等,中國著名的有百度(Baidu)。它们都是通过从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库。检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
- 垂直搜索引擎
- 垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。例如,著名的百度图片搜索,互联统计网[1]等都是针对某一领域而采用的垂直搜索引擎。
- 元搜索引擎
- 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
市場佔有率
搜索引擎的商务是一种新的商业模式,在中国大陆还有很多人用网址大全去寻找商业平台网站的时候,搜索引擎营销的方式慢慢的兴起,越来越多的买家又或卖家通过搜索引擎来寻找自己的需要。直至2019年9月,Google是全球最多人使用的搜索引擎,佔有市場92.96%。Google以其优秀的搜索算法,不被竞价排名所笼罩的搜索引擎。
東南亞和俄羅斯
在一些東南亞國家和俄羅斯,Google並不是最多人使用的搜索引擎。
在俄羅斯,Yandex 擁有61.9%市場佔有率,而Google只有28.3%。在中國,百度是最受歡迎的搜索引擎。而在南韓,Naver的佔有率達70%。在日本和台灣,雅虎是最多人使用的搜索引擎。
歐洲
大部分西方國家最多人使用的搜索引擎是Google。在捷克,Google並不是最多人使用的搜索引擎,Seznam.cz 也擁有不少支持者。
未來展望
隨著互聯網的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會朝著知识型搜索引擎的方向發展,期以為搜尋者提供更準確及适用的資料。目前,網上的百科全書如雨後春笋般發展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。
消費者保護
2013年6月25日,美國聯邦交易委員會發佈新版的消費者保護命令,要求搜尋引擎必須要能夠明顯區分出搜尋結果及廣告。[2]
参考文献
- statinternet.net 的存檔,存档日期2015-04-05.
- . 美國聯邦交易委員會. 2013-06-25 [2013-06-25].