将主题标签分类为主题或类别。例如:#FIFA - >体育,视频_游戏

时间:2012-08-18 17:11:59

标签: nlp classification text-processing

是否有公共API或Java库可以将Twitter Hashtags分类为有限集中的主题/类别。

我需要根据他们的主题标签找到每个Twitter帖子的主题。例如:

/#FIFA12会将这篇文章归类为VIDEO_GAMES / GAMES或ENTERTAINMENT等。

1 个答案:

答案 0 :(得分:1)

我不知道有这样做的API,但一种方法是查看映射到维基百科标题的主题标签。例如。维基百科中有一个“FIFA12”标题(重定向到另一个页面)。除非含糊不清的字符串,您应该能够将大量的标签映射到维基百科标题。

获得标题后,您可以遍历维基百科图并获得父子类别关系。例如。 FIFA12在维基百科中按以下类别分类。

2011 video games
Electronic Arts games
EA Sports games
PlayStation 2 games
PlayStation 3 games
PlayStation Portable games
IOS games
Xbox 360 games
Wii games
Nintendo 3DS games
Windows games
Video games developed in Canada
Association football video games
Sports video games with career mode
Video games set in 2011 

这些类别中的每一个都会有更多的父母。例如。 “2011年视频游戏”有父母

2011 works
21st-century video games
2011 in video gaming
2011 software

您可以在广度优先搜索的每个级别使用具有阈值(例如2+)的“多数投票”来减少您需要分析的节点数量。在某些时候,你可以想出一个启发式停止。例如。 “视频游戏”类别距离FIFA12只有3跳,可以通过多条路径到达。提出最佳的启发式算法并不是一件容易的事,但这里有一些悬而未决的成果。