我正在用python开发一个NLP项目。
我正在从社交网络中获得“对话”。对话由post_text + comment_text + reply_text组成(带有comment_text和reply_text作为可选项)。
我还有一个类别,参数列表,我希望将对话“连接”到一个参数(或者为每个参数获得权重)。
对于每个类别,我使用wikipedia
python包在Wikipedia上获得摘要。所以,它们代表我的培训文件(对吧?)。
现在,我已经减少了一些步骤,但也许我错了。
您如何看待这些步骤?是否有任何指南/如何/预订我要阅读以更好地理解这个问题?
答案 0 :(得分:1)
您可以培训分类器,而不是从维基百科中获取摘要并匹配相似性,而分类器可以预测哪个文档类别。您可以从维基百科的夏季最简单的词汇表示开始进行分类,然后分析结果和准确性。之后,可以向更加复杂的方法前进,例如单词到矢量或文档到矢量用于单词表示,然后训练分类器。
制作分类模型后,要为测试文档指定类别,需要使用分类模型对其进行分类。