ISO 639-3

ISO 639-3 是個國際語種代號標準,在2007年2月5日出版。它延伸了 ISO 639-2 裡的 Alpha-3 code(三個字母的代號),目標是涵蓋所有的語言。所以,它是 ISO 639-1 的超集合。 ISO 639-3 是 ISO 639-2 個別語言的超集合,但是因為 ISO639-3 沒有 ISO639-2 的語言集合,所以 ISO 639-3 不是整個 ISO 639-2 的超集合。

自2005年7月30日發佈的計畫草案,共有 7,602 個語言條目,這些語言的來源有三個:基本資料來自 ISO 639-2 所收錄的個別語言,和取自《民族語》裡的現代語言調查資料。而過去歷史的各類語言及古老的語言和人工語言,則是出自 the Linguist List 的資料。

編碼空間

因為這是採用 3 個字母,所以這套 3 字母編碼理論上最多可代表 26×26×26 = 17,576 種語言。但是,因 ISO 639-2 定義了4個特別代碼、 520個預留區域和23個 B 類代碼,故此 ISO 639-3 可用的編碼只有 17,576 − 547 = 17,030 個。

其中有4個代碼用來代表特殊情況:

  • mis──「uncoded languages」(未編碼語言);
  • mul──「multiple languages」(多語種);
  • und──「undetermined language」(未確定的語種);
  • zxx──「no linguistic content」(没有语言内容)。

標準中亦有一個供私人使用的範圍: qaa-qtz

大語言 (Macrolanguages)

在 ISO 639-3 代碼中,以下的語言被視為是某些其他語言的大語言 (macrolanguage),即這些語言可再細分為數種以上的語言。就以漢語為例,SIL 就把漢語細分為 14 種語言。

它們所包括的語言可在 http://www-01.sil.org/iso639-3/macrolanguages.asp页面存档备份,存于 查看。

集合語言 (Collectives)

SIL 在檢視過七千多種語言之後,發現以下 11 種被列在 ISO 639-2 的語言,它們之下所包含的語言,並非屬於同一語種,故在 ISO 639-3 代碼中被刪除。

  • bad 班达语
  • bih 比哈尔语(有一個 ISO 639-1 代碼 bh
  • btk 巴塔克语
  • day 达雅克语
  • him 喜马偕尔语
  • ijo 伊乔语
  • kar 克伦语
  • kro 克鲁语
  • nah 纳瓦特尔语
  • son 桑海语
  • znd 赞德语

註:比哈爾語之下有10多種語言之多,故理論上不應獲發一個 ISO 639-1 代碼 bh

參見

外部連結

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.