应用错误收集

我正在用python开发一个NLP项目。

我正在从社交网络中获得“对话”。对话由post_text + comment_text + reply_text组成（带有comment_text和reply_text作为可选项）。

我还有一个类别，参数列表，我希望将对话“连接”到一个参数（或者为每个参数获得权重）。

对于每个类别，我使用wikipedia python包在Wikipedia上获得摘要。所以，它们代表我的培训文件（对吧？）。

现在，我已经减少了一些步骤，但也许我错了。

每个培训文档都必须转换为矢量空间模型。我要删除停用词和常用词。所以，我有一个词汇表。
必须将每个对话转换为向量空间模型，并且必须将每个标记分配给其词汇索引。我可以将所有向量空间模型保存在矩阵中。
现在，我要在所有矩阵行上执行tf-idf（例如）。
- 在tf-idf我要计算tf，idf和规范化矩阵？
因此，每行代表每次会话的tf-idf。现在，我要执行余弦相似性（例如）以获得每个对话和一个训练文档之间的相似性。我要迭代它以获得对话和每个培训文档之间的相似性。

您如何看待这些步骤？是否有任何指南/如何/预订我要阅读以更好地理解这个问题？