使用许多不同的无序项目对许多文档进行分类

时间:2017-03-14 10:15:03

标签: classification text-mining

我使用不同的无序项目来处理以下文档,例如,

  1. doc_1:
    • 第1项,
    • 第2项, ...
    • item n
  2. doc_2:
    • 第7项,
    • 第3项, ...
    • 项目n 。 。
  3. doc_n:
    • 第20项,
    • 第17项, ...
    • item n
  4. 如何分类为类似的组,例如,

    1- doc_1:      所有项目1

    2- doc_2:      所有第2项

    ...等

1 个答案:

答案 0 :(得分:0)

根据您的评论How to collect similar items in different documents?,我假设您要计算文档中的行与其他文档中的行之间的相似性得分。

一种简单的方法是通过bag-of-words模型表示文档的一行/一句。然后,您可以计算两个句子/线表示的余弦相似度。

鉴于两个不同文档中的两行在文本上非常接近,您应该在其句子表示之间观察到更高的余弦相似性。

请注意,有用的表示和相似度计算取决于您尝试解决的问题。比如说,如果不同的文档包含与不同产品(手机,笔记本电脑)相关的产品评论(一条或多条线),并且您想收集与单个产品相关的线条,则可以简单地按照上述方法进行。

另请注意,我建议的解决方案,它非常天真。为了在您期望的任务中实现更高的准确性,您可能需要设计更有针对性,这对目标任务有效。