深网

深网,即深層網站英語:),是指不能被标准搜索引擎索引的全球資訊網内容。與深網相反的術語是表網,任何人都可以使用網際網路存取。

深網的內容隱藏在HTTP表單後面,包括許多非常常見的用途,如網路郵件網路銀行、私人或受限制的社群媒體頁面,以及使用者必須付費並受到付費牆保護的服務,如隨選視訊、一些網路雜誌和報紙等。

命名

伯格曼在The Journal of Electronic Publishing上發表一篇關於深网的重大論文中提到,吉尔.艾尔斯沃夫曾经使用“隱形網”这一术语表示那些没有被任何搜索引擎索引注册的网站[1]。伯格曼還引用法兰克·加西亚在1996年1月的一篇文章[2]

这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我稱之為隱形網。

早期另一個使用“隱形網”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。[3]

現在普遍接受的深网這一特定術語首次使用在2001年伯格曼的研究中[1]。2001年,電腦科學家迈克尔·伯格曼将当今全球資訊網上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表網大几个数量级[1]

深網資源

防止網頁被傳統搜索引擎索引的方法可以被分類為以下一個或多個:

  1. 被限制存取的內容:以技術方式限制訪問其網頁的網站,例如Robots.txtCAPTCHAs或是禁止搜尋引擎建立快取[4]
  2. 非HTML或文本的內容:圖像或影片等多媒體或是特定檔案格式無法被搜尋引擎處理。
  3. 私人網站:需要註冊或是登入的網站。
  4. 軟體:某些內容刻意隱藏在一般的網路上,只能使用特殊軟體如TorI2P或其他程式存取。例如Tor讓使用者匿名訪問.onion網址的網站,以隱藏他們的IP位址。
  5. 未被連結的內容:未被其他網站連結或很少連結的網頁,這可能防止被網路爬蟲存取。
  6. 網站檔案管理庫網站時光機這類網站內容的網頁無法被搜尋引擎編入索引[5]

抓取深網內容

研究人员探寻了如何自动抓取深网内容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)[6][7]发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。[8]

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap協議(由Google於2005年首次開發並由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:

  1. 为输入搜索选择关键词允许的输入值,
  2. 确定是否只接受特定的值(例如时间),以及
  3. 选择少量的组合生成适合纳入网站的搜索索引网址。

2008年,為了方便Tor隱藏服務的使用者存取和搜尋隱藏的.onion網域,亞倫·斯沃茨設計了Tor2web—一個能夠利用普通瀏覽器存取的代理應用程序[9]

参見

参考资源

  1. Bergman, Michael K. . The Journal of Electronic Publishing. August 2001, 7 (1) [2009-02-24]. (原始内容存档于2011-04-10).. According to that paper, the study was originally published on July 26, 2000, with data then updated to 2001.
  2. Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead 9 (1). (Citation from Flynn-Burhoe, Maureen (19 December 2006). "The Ultimate Guide to the Invisible Web". oceanflynn @ Digg.) (Electronic copy archived by the Internet Archive.)
  3. Personal Library Software (Dec 1996). "PLS introduces AT1, the first 'second generation' Internet search service". (Archived by the Internet Archive.)
  4. . Internet Engineering Task Force. 2014 [2014-07-30]. (原始内容存档于2017-05-13).
  5. Wiener-Bronner, Danielle. . Fusion. June 10, 2015 [June 27, 2015]. (原始内容存档于2015-06-30). There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann.
  6. Sriram Raghavan; Hector Garcia-Molina. (PDF). Stanford Digital Libraries Technical Report. 2000 [2008-12-27].
  7. Raghavan, Sriram; Garcia-Molina, Hector. (PDF). : 129–138. 2001.
  8. Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. (PDF). UCLA Computer Science. 2005 [2009-02-24].
  9. Aaron, Swartz. . [February 4, 2014]. (原始内容存档于2018-10-31).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.