如何根据内容自动查找文本类别?
答案 0 :(得分:2)
答案 1 :(得分:2)
我建议您查看与Natural Language Toolkit捆绑在一起的文本分类库。即使您不熟悉Python,我认为您会发现API非常直观。 NLTK Book中有很多很好的例子,邮件列表上的人也很有帮助。
答案 2 :(得分:0)
答案 3 :(得分:0)
答案 4 :(得分:0)
进行文本分类的最简单方法是使用bag-of-words表示。每个文档中的单词/ n-gram单词可用作特征。有了这个,您可以将每个文档表示为度量空间中的向量。随后,您可以将clustering应用于对内容相似的文档进行分组。例如,您可以将k-means聚类与这些向量一起用于将词汇类似的文档聚类在一起。
基于Python的文本挖掘工作台,NTLK非常适合快速尝试这些任务(通常,python非常适合处理文本)。你可能会发现它很有用。