機器翻譯史

一般認爲,機器翻譯的歷史始於1950年代。雖然相關理論和研究較早已經進行,但在1954年初的喬治城大學的實驗,即電腦成功將四十多條俄文句子自動翻譯成英文,是機器翻譯史中的一個里程碑,標誌著現代機器翻譯的開端。美國也因此投入了大量資金研究機器翻譯。上述實驗的研究人員聲稱在三或五年內,機器翻譯中遇到的語言邏輯的困難將會迎刃而解[1]。蘇聯的研究人員隨後也進行了類似的實驗。

然而,實際進展比預期慢得多。1966年,自動語音處理顧問委員會(Automatic Language Processing Advisory Committee, ALPAC)報告發現十幾年來的研究未能達到預期的成果,而且認爲機器翻譯在短期内不會取得突破性進展。此報告一出,相關的研究經費大幅萎縮。直至80年代後期,由於電腦運算效能的提升及電腦成本的降低,研究的重心開始放在機器翻譯統計模型上。

至今仍沒有一個程式系統能夠達到—「全自動優質翻譯任何文體」(fully automatic high quality translation of unrestricted text)的境界。 [2][3][4]。然而,現在有很多程式在嚴格限制下能提供準確的翻譯。其中有些是網絡服務,如Google翻译SYSTRAN系統。後者為AltaVista的BabelFish提供技術支援(BabelFish自2008年5月9日為雅虎所有)

起源

機器翻譯的歷史可追溯至十七世紀時,哲學家如萊布尼茲笛卡爾提出代碼字,把字和語言聯繫。但這些建議仍然是理論,沒有發展成實際的機器。

“翻譯機”是20世紀 30年代中期一項專利發明。其中一項建議應用,由喬治阿氏羅利(Georges Artsrouni)提出,是一個使用紙帶的自動雙語詞典。另一項建議則更詳細,是由彼得(Peter Troyanskii),俄羅斯人提出。這既包括雙語詞典,和一個根據世界語,處理語言上語法之間的方法。系統被分爲三個階段:第一階段是為一位能講要翻譯的來源語言的當地編輯去把文字組織成符合它們的邏輯形式和語法功能;第二階段是讓機器來“翻譯”這些文字形式為要翻譯的目標語言;以及第三階段是給能講當地要翻譯的目標語言的編輯將這結果正常化。他的計劃仍默默無聞,直至20世紀50年代末期,那時,電腦是衆所周知的。

早期發展

時任洛克菲勒基金會的研究員的瓦倫韋弗(Weaver)於1949年7月,在他發表的名為“翻譯”的備忘錄提出了第一個機器翻譯的構想。[5]這些建議是基於資訊理論、第二次世界大戰期間解碼成功和對於普遍現象的推測而所構成的自然語言原則。

這些建議在幾年後,美國許多大學都開始認真研究。1954年1月7日,在紐約的IBM總公司,首次於Georgetown-IBM實驗中公開展示MT系統。這次示範亦在報紙上獲得廣泛報導並引起公眾的興趣。然而今天,該系統只能被稱為「兒戲的」系統,一共只有250字和49句經小心篩選的俄文句子翻譯為英文 – 內容主要是化學方面的内容。儘管如此,它提出一個觀點 – 機器翻譯即將成爲現實;同時,它不但刺激了美國,還有世界上許多國家對該項研究的資金投入。[6]

早期的機器翻譯系統,乃透過使用大型雙語詞典和手動的編碼法則來修正得出的語序,但此系統被發現有太多限制。而那時期語言學的發展,例如生成語言學和轉換生成語法,都試圖改善其翻譯質素。

在此期間,操作系統被安裝。美國空軍使用的系統是由IBM 和華盛頓大學生產,而位於美國的原子能委員會和於意大利的歐洲原子能組織使用的系統則是由喬治城大學所開發。儘管輸出的質量是粗劣,它仍然滿足了許多客戶主要在速度方面的需求。

在1950年代末,美國政府要求研究員野浩樹窪·巴希里(Yehoshua Bar-Hillel)研究可否利用機器執行全自動高質量的翻譯。野浩樹窪(Yehoshua)提出了一個論點。此論點是語義歧義或雙重意義。試分析以下句子:

Little John was looking for his toy box. Finally he found it. The box was in the pen.

“Pen”這個詞可以有兩個含義,第一個含義指人們用來書寫的工具,第二個含義指某種容器。對人而言,其含義顯而易見,但他聲稱如果沒有「萬用百科全書」,機器將永遠無法處理這個問題。現在,這類語義歧義可以通過編寫受控的機器翻譯語言源文,利用詞匯的每個準確含義的單詞來解決。

1960年代、自動語言處理諮詢委員會報告及70年代

美國與蘇聯於1960年代的研究,主要都集中在英文與俄文的語言配對翻譯。翻譯的主要對象是科學和技術上的文件,如科學期刊的文章。粗糙的翻譯足以了解文章的基本內容。如果討論的主題被視為是機密,它會被送往人類譯者以取得完整的版本,不是的話則被捨棄。

隨著ALPAC報告的出版,機器翻譯研究在1966年遭受了巨大的打擊。該報告由美國政府委託,由自動語言處理諮詢委員會ALPAC提供,該委員會由美國政府於1964年召集的七名科學家組成。美國政府感到关切的是,儘管支出費用龐大,卻仍然未取得進展。該報告的結論是「機器翻譯比人工翻譯更昂貴、更不准確、速度更慢。而且儘管花費巨大,在不久的將來,機器翻譯仍不太可能達到人工翻譯的水平。」

然而,該報告也建議開發一些工具來幫助翻譯人員(例如自動詞典),並應該繼續支持某些計算語言學的研究。

該報告的發表對美國的機器翻譯研究產生了深遠的影響,對蘇聯和英國的影響則較輕微。至少在美國,機器翻譯的研究幾乎完全被遺棄了十多年。然而,在加拿大、法國和德國,相關研究仍持續進行。在美國,主要的例外有Systran(彼得•托馬創立)和Logos(伯納德•斯科特創立),他們分別在1968年和1970年成立了自己的公司,並為美國國防部服務。1970年,美國空軍安裝了Systran系統,歐洲共同體委員會隨後也在1976年安裝該系統。METEO系統是由蒙特利爾大學開發,並於1977年安裝在加拿大,負責將天氣預報從英語翻譯成法語,在2001年9月30日被競爭對手的系統取代之前,METEO系統每天翻譯近8萬字,每年翻譯近3000萬字。[7]

20世紀60年代的研究集中在有限的語言配對和輸入上,而1970年代受全球化的增長以及加拿大、歐洲和日本對翻譯的需求影響,刺激了對低成本機器翻譯系統的需求,目的是為了用於翻譯一系列技術和商業文件。

1980年代和1990年代早期

到了20世紀80年代,用於機器翻譯的安裝系統在多樣性和數量上都有所增加,許多依賴大型計算機技術的系統投入使用,例如Systran、Logos、Ariane-G5和Metal。

由於微型計算機的可用性提高,形成了低端機器翻譯系統市場。歐洲、日本和美國的許多公司都利用了這一點,而系統也被引入了中國、東歐、韓國和蘇聯市場。

20世紀80年代,日本的MT活動非常活躍。隨著第五代計算機的計畫,日本打算在計算機硬件和軟件方面超越競爭對手,許多大型日本電子公司參與了與英語互譯的項目(富士通、東芝、NTT、兄弟、Catena、三菱、夏普、三洋、日立、NEC、松下、弘電社、Nova、沖電氣)。

20世紀80年代的研究通常依賴於各種中介語言表徵來進行翻譯,包括構詞學分析、句法分析和語義分析的。

20世紀80年代末,新的機器翻譯方法大量湧現。IBM開發了一個「基於統計方法」的系統。Makoto Nagao和他的團隊使用了基於大量翻譯範例的方法,這種技術現在稱為「基於實例」的機器翻譯[8][9]。這兩種方法的一個顯著特點是忽略了語法和語義規則,而是依賴於對大型文本語料庫的操作。

在20世紀90年代,受語音識別和語音合成技術成功的鼓舞,隨著德國Verbmobil項目的發展,開始了語音翻譯研究。

前向區域語言轉換器(FALCon)系統是美國陸軍研究實驗室設計的一種機器翻譯技術,1997年投入戰場,為波斯尼亞的士兵翻譯文件[10]

由於低成本和功能更強大的計算機的出現,機器翻譯的使用有了顯著的增長。20世紀90年代初,機器翻譯開始從大型計算機向個人計算機和工作站過渡。兩家公司Globalink和MicroTac曾一度引領個人電腦市場,之後兩家公司的合併(1994年12月)被認為符合兩者的利益。Intergraph和Systran也在這個時候開始提供PC版本,網站也可以在互聯網上找到,例如AltaVistaBabel Fish(使用Systran技術)和谷歌語言工具(最初也只使用Systran技術)。

2000年代

在過去幾年裡,機器翻譯領域發生了重大變化,對統計機器翻譯和基於實例的機器翻譯投入了大量的研究。在語音翻譯領域,研究重點則是將翻譯系統從領域限定的系統轉向領域不限定的系統。在歐洲的不同研究項目(如TC-STAR)[11]和美國(STR-DUST和US-DARPA-GALE)[12],已經制定了自動翻譯議會演講和廣播新聞的解決方案。在這些場景中,內容的領域不再局限於任何特殊領域,而是要翻譯涵蓋各種主題的演講。法德合作的Quaero項目研究了「為多語言互聯網上使用機器翻譯的可能性」。該項目不僅要翻譯網頁,還要翻譯互聯網上的視頻和音頻文件。

今天,只有少數公司使用商業統計機器翻譯,例如Omniscien Technologies(前身為亞洲在線),SDL / Language Weaver(銷售翻譯產品和服務),谷歌(使用其專有的統計MT系統谷歌語言工具中的一些語言組合[13],微軟(使用其專有的統計MT系統翻譯知識庫文章)和Ta with you (提供基於統計MT領域與一些語言知識的適應機器翻譯解決方案)。隨著與研究人員將句法和形態(即語言)的知識結合到統計系統,以及結合了現有基於規則系統的統計資料,開始對混合技術產生了興趣。

參考文獻

  1. Hutchins, J. (2005)
  2. . [2011-02-16]. (原始内容存档于2011-05-25).
  3. Wooten, Adam. "A Simple Model Outlining Translation Technology" T&I Business (February 14, 2006)
  4. Appendix III of 'The present status of automatic translation of languages', Advances in Computers, vol.1 (1960), p.158-163. Reprinted in Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p.174-179.
  5. Weaver memorandum (March 1949) 存檔,存档日期2006-10-05.
  6. Hutchins, J. (2005)
  7. . Canadian International Trade Tribunal. 30 July 2002 [10 February 2007]. (原始内容存档于6 July 2011).
  8. Nagao, Makoto. (PDF). . New York: Elsevier North-Holland, Inc.: 173–180. 1984. ISBN 0-444-86545-4.
  9. . Association for Computational Linguistics. [10 March 2010]. (原始内容存档于2010-06-12).
  10. White, John S. . Springer. 2003-07-31. ISBN 9783540399650 (英语).
  11. . [25 October 2010].
  12. . [25 October 2010]. (原始内容存档于2010-11-11).
  13. . [12 February 2018].
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.