DiVoMiner® 使用手冊

  1. Home
  2. Docs
  3. DiVoMiner® 使用手冊
  4. 演算法探勘
  5. 語種辨識

語種辨識

模型說明:

根據自動語言識別技術對文本內容進行語種識別,支援識別中文簡體、中文繁體、英語、韓語、日語和法語等90多種語言,並統計出輸入文本內容各種語言的數量分佈情況。

該演算法在結合langID的基礎上進行優化,如新增對繁體中文識別的支援,模型採用多項式的樸素貝葉斯分類器,使用多種語言的多種場景的語料進行訓練,具有準確率高、執行速度快等優點。

準確度說明:

使用XNLI資料集(url:https://github.com/facebookresearch/XNLI)對模型進行測試,XNLI由Facebook和紐約大學的研究者聯合構建語料庫,旨在評測模型多語言的句子理解能力,最新的XLM和Multilingual BERT模型都是使用XNLI來評估跨語言效果。測試樣本共150,000篇,包含9,672,723字元,整體準確率為95.8%。當文本中存在多種語言混合的時候,識別的準確率可能會下降 。

参考文献:

  • Bagci, I. E., & Alhoniemi, E. (2020). Language Identification using transfer learning from large language models pre-trained on non-parallel multilingual databases. Information, 11(10), 468.
  • Ur Rahman, M. A., Ali Khan, F., Okasha, S., & Buya, R. (2021). Deep Language Identification using Stack of Residual and Inverted Residual Convolutional Neural Networks. IEEE Access, 9, 44999-45012.
Was this article helpful? Yes No

How can we help?