全文檢索
全文索引的相關議題
- 語根處理 (stemming)
- 符素解析器 (token parser) 1-gram, 2-gram , n-gram
- 斷詞/分詞 word segmentation
- inverted index
演算法、搜尋策略之模型
- 布林式 boolean
- 統計模型 Probabilistic model
- 向量空間模型 vector base model
- 隱性語義模型 Latent semantic model
評量之準則
- 查全率(recall rate),查準率(precision)
開放原始碼之全文檢索系統
- Apache Solr
- BaseX
- Clusterpoint Server (freeware licence for a single-server)
- DataparkSearch
- Ferret
- Ht-//Dig
- Hyper Estraier
- KinoSearch
- Lemur/Indri
- Lucene
- mnoGoSearch
- Sphinx
- Swish-e
- Xapian
- ElasticSearch
和中文有關的議題
- 斷詞
- 語法解析
- 古籍議題
- 多語言混合
優化
- 剔除字(Stopwords)
- 詞性標註
- (authority file)
- 知識體系,本體論(ontology)
- 超連結分析(page rank)技術
歷史及未來之趨勢
- 自由語句搜尋
參考
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.