例如,我有一个由行组成的文本。每行都有自己的长度,缩进和其他功能。我的目标是在本文中找到诗歌,但我知道的所有聚类方法都会重新排序行并构建独立于文本位置的聚类。我曾试图将这个职位作为一项功能,但我不喜欢这个结果。如果你暗示我像DBSCAN这样的东西会很酷。你能救我吗?
答案 0 :(得分:1)
据推测,群集不是解决问题的正确工具。可能会有一些分段算法可以用于你的问题。
最好将它视为优化问题,并将其解决,而不是希望某些聚类算法能够正常工作。
答案 1 :(得分:-1)
我认为这个问题归结为要使用哪些功能。你有一个自然语言处理任务,所以我建议Word2Vec,例如
这种方法能够在矢量空间中嵌入单词,句子甚至文档。
另请参阅:Document classification with distributions of word vectors