如何处理文档中拼写错误的单词以进行文本挖掘任务?

时间:2010-11-25 11:28:24

标签: nlp spell-checking misspelling

我有一套非正式文件(成千上万)我想要应用主题建模(MALLET)。问题是,文件中有相当多的拼写错误的单词。大多数都是有意的,例如短格式和本地术语,如''juz' - > 'just','alr' - > '已经'。由于作者的独特写作风格不同,存在一些这样的变化。

在将它们送到MALLET之后,我有点担心生成的主题之一实际上是一组拼写错误的停用词。我相信这些词主要用于同一作者的一小部分文档中,因此MALLET会选择它。

我的问题是,在对其进行进一步的任务之前,我是否拼写检查并纠正这些拼写错误的单词,并将修正后的文本保存在某处?我想这意味着我确实需要在提交之前手动验证更正?最有效的方法是什么?

或者我真的忽略了这些拼写错误的单词?

2 个答案:

答案 0 :(得分:0)

我不认为我们可以在不知道拼写错误的单词或错误纠正的拼写错误单词对主题建模结果的影响的情况下回答这个问题。所以,如果你能提供更多信息,那就更好了。

然而,我原以为你想要纠正它们,至少在修正显然是原作者的意图的时候。

答案 1 :(得分:0)

目前你对停用词怎么办?如果您正在进行主题建模,那么将它们过滤掉是有意义的。如果是这样,为什么不过滤这些术语?

[编辑以回复回复]

有一些关于以更原则的方式处理LDA中的停用词的研究。有两篇论文浮现在脑海中:

  1. Term Weighting Schemes for Latent Dirichlet Allocation
  2. Rethinking LDA: Why Priors Matter.
  3. [1]使用一个术语加权方案,显然有助于他们设置的预测任务,[2]在单词分布上使用非对称先验,这显然会导致一些主题其中包含所有停用词,以及整个语料库共有的其他词。

    在我看来,在LDA中自动推断停用词和其他非主题词的最佳方法仍然是一个研究问题。