文字蘊涵
文字蘊涵(Textual entailment,TE)在自然語言處理是一個文字片段之間的定向關係。擁有一個文字片段的含意時,可以從另一個文字如下關係。TE的框架中,將會導致必須需要的文本被稱為文本(T)和假設(H)作為分別。文字蘊涵是不一樣的純邏輯蘊涵,它有一個更寬鬆的定義:"T推導到H"(T⇒H),通常情況下,如果一個人閱讀T將推斷為H是最有可能的正確的關係[1]。文字蘊含關係是有方向性的,如正向的"T推導到H"或反向的"H推導到T"[2][3]。
自然語言的歧義
自然語言的一個特點是,有許多不同的方式說出你想說什麼:可以通過不同的文字表達相同的含義,可以包含在一個單一的文字和幾個含義。這種語義表達的變化可以看出,作為雙語言歧義的問題。他們一起導致在許多一對多的語言表達和意義之間的映射。正確解釋文本,就需要在理論上深入到了它的含義的邏輯代表性的語義解釋。自然語言處理是確實可行的解決辦法,並在更簡易的方式使用文字蘊涵。
範例
正向蘊涵
文本T:日本時間2011年3日11日,日本宮城縣發生芮氏規模9.0強震,造死傷失蹤約3萬多人。
假設H:日本時間2011年3日11日,日本宮城縣發生芮氏規模9.0強震。
矛盾蘊涵
文本T:張學友在1961年7月10日,生於香港,祖籍天津。
假設H:張學友生於1960年。
獨立蘊涵
文本T:黎姿與"残障富豪"馬廷強結婚。
假設H:馬廷強為香港"東方報業集團"創辦人之一馬惜如之子。
識別文字蘊涵
許多自然語言處理的應用程序一樣,問答(QA)的信息抽取(IE)的(多文檔)匯總和機器翻譯(MT)的評價,需要這種可變性現象的一個模型,為了一個特殊目標意思可以從不同的文本變形被推斷。2004年識別文字蘊含(TER)提議作為橫跨許多自然語言處理應用[2]的主要語義推斷需要的一項普通任務。建立文本蘊涵的數學解決方案可以根據這種關係的方向性,然關係的方向所涉及的文字之間的一些相似的比較。
目前RTE在國際間被關注研究應用在不同語言中,如2011年日本NTCIR-9[4]大會就將簡體中文、繁體中文、日文的RTE列為比賽項目。
參考資料
- Ido Dagan, Oren Glickman and Bernardo Magnini. The PASCAL Recognising Textual Entailment Challenge, p. 2 页面存档备份,存于 in: Quiñonero-Candela, J.; Dagan, I.; Magnini, B.; d'Alché-Buc, F.(Eds.)Machine Learning Challenges. Lecture Notes in Computer Science , Vol. 3944, pp. 177-190, Springer, 2006.
- Dagan, I. and O. Glickman. 'Probabilistic textual entailment: Generic applied modeling of language variability' 页面存档备份,存于 in: PASCAL Workshop on Learning Methods for Text Understanding and Mining(2004)Grenoble.
- (PDF). [2012-02-14]. (原始内容存档 (PDF)于2011-08-11).
- . [2012-02-16]. (原始内容存档于2011-11-17).