评估语言识别方法

时间:2014-10-28 23:54:13

标签: algorithm machine-learning nlp evaluation n-gram

我的论文工作的一部分是评估已经可用的语言检测方法的数量,然后最终实现它们。 为此,我选择了以下方法,

  1. Cavnar和Trenkle的基于N-Gram的文本分类
  2. Ted Dunning的语言统计识别
  3. 使用基于压缩的语言模型进行Teahan和Harper的文本分类
  4. 字符集检测
  5. 语言/编码检测的复合方法
  6. 我必须首先评估这些方法,并且最好为每种方法提供一个准确的表格。我的问题是,为了找到每种方法的准确性,我是否需要继续使用训练数据构建语言模型,然后测试它们并记录准确性,或者我可以遵循其他任何方法。虽然大多数研究已经包含了这些准确性表格,但我不确定在我的教育中是否接受它只是抓住它并在报告中出现。

    感谢对此的任何想法。

1 个答案:

答案 0 :(得分:1)

我还建议问你的论文顾问。实现所有这些将是很多工作,并且很难真正比较它们而不能测试它们。如果我没记错的话,最后三个文献在文献中没有得到很好的评价,那么就很难比较它们的结果。我自己实现(并评估过)第一个。一个很大的问题是,这篇LI评估和实施的论文有多大?