我想将推文分类为预定义的类别(例如:体育,健康和其他10个)。如果我有标记数据,我将能够通过训练朴素贝叶斯或SVM进行分类。如http://cucis.ece.northwestern.edu/publications/pdf/LeePal11.pdf
中所述但我无法找到未标记数据的方法。一种可能性是使用期望最大化并生成集群并标记这些集群。但正如前面所说,我已经预定义了一组类,因此聚类不会很好。
任何人都可以指导我应该遵循哪些技巧。感谢任何帮助。
答案 0 :(得分:3)
好的我能理解的是,我认为有多种方法可以解决这个问题。 将有折衷,准确率可能会有所不同。因为众所周知的事实和观察
(除非您根据标签和其他关键字从twitter流API中提取数据)。请定义数据源以及如何提取数据。我假设你只是得到一般推文,可以是任何事情
您可以做的是为您拥有的每个班级生成一组字典 (即Music => pop,jazz,rap,instruments ......) 它将包含该类的相关单词。您可以将NLTK用于python,或将 Stanford NLP 用于其他语言。
您可以从提取
开始去看看这些NLP Lexical semantics slides。它肯定会清除一些概念。
每个班级都有字典。将它们与你得到的推文进行交叉比较。具有最相似性的推文(您可以根据这些词典中出现的单词对它们进行排名),您可以将其标记为该类。这将使您的推文标记为其他人。 现在的问题是准确性!但这取决于您的课程的数据和多功能性。这可能是" Over kill"但它可能接近你想要的。
此外,您可以通过这种方式标记一些推文,并使用余弦相似性来识别其他推文。这将有助于优化部分。但话又说回来了。如您所知,您可以承担什么权衡
真正的斗争将是机器学习部分以及你如何管理它。
答案 1 :(得分:1)
实际上,这似乎是半监督学习的典型用例。这里有很多使用方法,包括使用约束进行聚类(强制模型将来自同一类的样本聚集在一起),转换学习(其中您尝试将标记样本中的模型外推到未标记样本的分布上)。
你也可以像@Shoaib建议的那样简单地聚类数据,但是你必须提出启发式方法如何处理具有混合标签的聚类。此外 - 显然解决与任务(标签)无关的优化问题将不如实际使用这些知识那么好。
答案 2 :(得分:0)
您可以使用群集执行该任务。为此,您必须首先为每个类标记一些示例。然后使用这些标记的示例,您可以轻松识别每个群集的类。