较长的文本(例如文章内容)或较短的文本(例如文章标题)是否更适合分类?

时间:2013-01-23 07:17:15

标签: machine-learning

我目前正在做一个收集和分类新闻文章的项目,我只对收集的所有文章的一小部分(例如体育相关新闻)感兴趣。

我是机器学习和文本分类的新手。我应该根据文章的标题或实际内容对文章进行分类吗?如果新闻文章仅通过查看标题是相关的,人类通常可以相当自信地说出来。因此,我想知道标题而不是内容是否会在自动文本分类中提供类似或更好的准确度?

这个问题的原因是如果程序在找到链接时首先分析标题,而不是从网址中检索每个页面然后分析内容,整体性能会提高很多。

3 个答案:

答案 0 :(得分:2)

标题不太可能提供足够的信息来对文章进行分类。但是,你可以分析标题,如果你有足够的信心,你有一个准确的分类,你可以对它进行分类,否则看看内容。

采取像Manchester in trouble之类的东西。如果你不知道Manchester是一个体育团队,那么这篇文章既可以是经济的,也可以是政治性的,也可能是其他几个类别中的一个。我怀疑很多标题很容易被人归类,因为他们熟悉与该类别相关的专有名词,并且很难获得适当的培训数据来培训代理人做好这一点。

答案 1 :(得分:1)

没有一般答案。很大程度上取决于您将要使用的算法。我建议你从一个标题开始,尽量挤出最大值。如果你仍然无法达到理想的质量 - 尝试将文本添加到混合中。

答案 2 :(得分:0)

如果我们正在谈论文章的标题,那么,当然,一个非常短的文本对于分类来说更糟糕,因为它包含的信息更少。但是你可以结合文章标题和文章内容的分析。这可以使你的准确度略有提高。