使用文档相似性将文档分配到类别

时间:2017-06-24 16:34:03

标签: nlp tf-idf cosine-similarity

我正在用python开发一个NLP项目。

我正在从社交网络中获得“对话”。对话由post_text + comment_text + reply_text组成(带有comment_text和reply_text作为可选项)。

我还有一个类别,参数列表,我希望将对话“连接”到一个参数(或者为每个参数获得权重)。

对于每个类别,我使用wikipedia python包在Wikipedia上获得摘要。所以,它们代表我的培训文件(对吧?)。

现在,我已经减少了一些步骤,但也许我错了。

  • 每个培训文档都必须转换为矢量空间模型。我要删除停用词和常用词。所以,我有一个词汇表。
  • 必须将每个对话转换为向量空间模型,并且必须将每个标记分配给其词汇索引。我可以将所有向量空间模型保存在矩阵中。
  • 现在,我要在所有矩阵行上执行tf-idf(例如)。
    • 在tf-idf我要计算tf,idf和规范化矩阵?
  • 因此,每行代表每次会话的tf-idf。现在,我要执行余弦相似性(例如)以获得每个对话和一个训练文档之间的相似性。我要迭代它以获得对话和每个培训文档之间的相似性。

您如何看待这些步骤?是否有任何指南/如何/预订我要阅读以更好地理解这个问题?

1 个答案:

答案 0 :(得分:1)

您可以培训分类器,而不是从维基百科中获取摘要并匹配相似性,而分类器可以预测哪个文档类别。您可以从维基百科的夏季最简单的词汇表示开始进行分类,然后分析结果和准确性。之后,可以向更加复杂的方法前进,例如单词到矢量或文档到矢量用于单词表示,然后训练分类器。

制作分类模型后,要为测试文档指定类别,需要使用分类模型对其进行分类。