文本分析:后期文档矩阵是什么?

时间:2015-05-14 11:41:16

标签: r machine-learning nlp svm text-mining

我正在尝试从文本数据构建预测模型。我从文本数据(unigram和bigram)构建了文档术语矩阵,并在其上构建了不同类型的模型(如svm,随机森林,最近邻居等)。所有技术都给出了不错的结果,但我希望改进结果。我尝试通过更改参数来调整模型,但这似乎并没有提高性能。对我来说可能的后续步骤是什么?

1 个答案:

答案 0 :(得分:1)

这不是一个编程问题,但无论如何:

如果你的目标是预测,而不是文本分类,通常的方法是退避模型(Katz Backoff)和插值/平滑,例如, Kneser-Ney smoothing

像Random Forests这样的更复杂的模型是非常必要的AFAIK,如果你需要快速做出预测,可能会出现问题。如果使用插值模型,仍然可以使用数据的保持部分调整模型参数(lambda)。

最后,我同意阅读部分的NEO,并推荐Jurafsky和Martin的“语音和语言处理”。