我有使用Twitter API检索到的推文,需要将这些推文分为2类。为了进行分组,我使用doc2vec将推文表示为数字形式,然后执行DBSCAN算法聚类。但是,我如何知道群集属于哪个类别?我的输出只是分配给不同集群的推文。
例如,我需要知道哪些推文表明人们的需求,哪些推文表明人们可以提供帮助。
如何确定哪个集群具有哪些类型的推文? 谢谢!
答案 0 :(得分:0)
可能这两个集群都不是其中之一。
集群不受监督。您无需控制发现的内容。可能是包含f ...单词的推文与不包含单词的推文。
如果您想要一些特定的东西,例如“需求”和“要约”,那么您绝对需要从标签数据中训练一种监督算法。