我使用不同的无序项目来处理以下文档,例如,
如何分类为类似的组,例如,
1- doc_1: 所有项目1
2- doc_2: 所有第2项
...等
答案 0 :(得分:0)
根据您的评论How to collect similar items in different documents?
,我假设您要计算文档中的行与其他文档中的行之间的相似性得分。
一种简单的方法是通过bag-of-words模型表示文档的一行/一句。然后,您可以计算两个句子/线表示的余弦相似度。
鉴于两个不同文档中的两行在文本上非常接近,您应该在其句子表示之间观察到更高的余弦相似性。
请注意,有用的表示和相似度计算取决于您尝试解决的问题。比如说,如果不同的文档包含与不同产品(手机,笔记本电脑)相关的产品评论(一条或多条线),并且您想收集与单个产品相关的线条,则可以简单地按照上述方法进行。
另请注意,我建议的解决方案,它非常天真。为了在您期望的任务中实现更高的准确性,您可能需要设计更有针对性,这对目标任务有效。