如何根据文本内容进行分类?

时间:2008-09-15 18:36:38

标签: algorithm cluster-analysis machine-learning nlp

如何根据内容自动查找文本类别?

5 个答案:

答案 0 :(得分:2)

  1. 阅读 Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten,Eibe Frank
  2. 使用 Weka Orange

答案 1 :(得分:2)

我建议您查看与Natural Language Toolkit捆绑在一起的文本分类库。即使您不熟悉Python,我认为您会发现API非常直观。 NLTK Book中有很多很好的例子,邮件列表上的人也很有帮助。

答案 2 :(得分:0)

答案 3 :(得分:0)

对内容进行分类的最佳方式是使用taxonomy,无论是文字还是多媒体。 大多数众所周知的CMS都内置了对Taxonomy的支持。 Drupal对各种CMS中的taxonomy提供了最佳支持之一。

答案 4 :(得分:0)

进行文本分类的最简单方法是使用bag-of-words表示。每个文档中的单词/ n-gram单词可用作特征。有了这个,您可以将每个文档表示为度量空间中的向量。随后,您可以将clustering应用于对内容相似的文档进行分组。例如,您可以将k-means聚类与这些向量一起用于将词汇类似的文档聚类在一起。

基于Python的文本挖掘工作台,NTLK非常适合快速尝试这些任务(通常,python非常适合处理文本)。你可能会发现它很有用。