区分单词和非单词的方法

时间:2014-04-07 13:48:19

标签: nlp nltk

我正在使用Stack交换数据转储并尝试识别语料库中的唯一和新颖的单词。我这样做是引用一个非常大的单词列表并提取我的参考单词列表中没有的单词。

我遇到的问题是许多独特的令牌都是非单词,比如目录名,错误代码和其他字符串。

是否有一种很好的方法可以识别出类似字的字符串与非类似字符串的字符串?

我正在使用NLTK,但不限于该工具包。

1 个答案:

答案 0 :(得分:2)

这是一个有趣的问题,因为很难定义什么是字符的组合。我建议使用有监督的机器学习。 首先,您需要从程序中获取当前输出,并将每个示例手动注释为单词和非单词。 然后,提出一些功能,例如

  • 字符数
  • 前三个字符
  • 最后三个字符
  • 在单词
  • 之前
  • 以下单词
  • ...

然后,使用像sci-kit这样的库学习创建一个捕获这些差异的训练模型,并可以预测" wordness"对于任何字符序列。

在这里,一类分类器可能是有用的。但无论如何要准备一些数据,以便您可以评估这种或任何其他方法的准确性。