我有大约500篇预先分类的文章。我已经为每个类别采用了最常用的名词和形容词,并按相关性对它们进行了排序。
每个类别(世界,商业,科技,娱乐,科学,健康,体育)都有几百个与之相关的词汇。
我在撰写这篇文章时遇到了问题: http://www.techhive.com/article/2052311/hands-on-with-the-2ds-an-entry-level-investment.html
这是关于游戏。根据我所看到的文章,“游戏,玩家等”等词语与体育密切相关。
本文评分如下:
{u'business': 51, u'entertainment': 58, u'science': 48, u'sports': 62, u'health': 35, u'world': 48, u'technology': 59}
正如你所看到的那样,技术已经达到59岁,但在62岁时被体育项目所取代。
我希望如果我将我的语料库增加到几千篇文章,这个问题就会解决,但我不知道这是否可能。
您对解决此问题有何看法?
我想过有一个赠品词的列表,比如“Twitter,Facebook,Technology,Nintendo等”,如果它们存在,它会自动将文章聚集到技术中。唯一的问题是找到这样做的话,并避免与商业/世界的冲突等。
感谢。
答案 0 :(得分:0)
游戏类别应该模仿狩猎,战争对应,纸笔RPG ...... - 任何有游戏版本的游戏。
我认为你希望将事实与虚构区分开来。我从你提出的想法中得出的一个想法是抓住一个库的小说部分和事实部分,并将它们缩减为一个短列表和一长串关键字。
ED: 这是我刚刚发现的东西,但典型的“hello world”示例,即字频分析,来自像Disco这样的map-reduce框架应该让你简单地指出一组你知道是事实或者小说。你应该有两个元组列表,然后你可以将这些元素过滤到关键词中,这些关键词肯定是关于事实或虚构的。