在文件上进行文本挖掘和分配类别的方法

时间:2018-11-12 10:19:43

标签: nlp rstudio

在确定逐行读取文本的方法时需要帮助,该文本包含事件凭单的描述,每读一行,它应使用一组已经确定的关键字关联为该事件类型分配一个类别...例如,如果描述中包含诸如密码之类的词,则应将其分配为类别密码问题。 请帮助

1 个答案:

答案 0 :(得分:0)

您可以尝试单词袋或文档向量。

如果存在拼写错误,则需要模糊匹配技术。

您还需要预先清除停用词。

祝你好运。