我已经设置了mahout来为新闻文章提供一些分类,所以我只能提取那些感兴趣的新闻文章。
我已经通过人工培训了这些新闻文章的标题,完成了大约80,000篇(我想要的文章和不想要的文章)
我写了一个应用程序,输出顶部单词及其分数,似乎某些关键词正在高高在上。
一些所谓的顶级单词是误报, - 它们只是顶部,因为每个标题页都有它们。
像斯特拉特福德先驱报' (这是报纸的名称) - 一旦模型已经创建,是否还要删除它们?
我想简单地删除大约20个顶级单词(或者在提供最佳标签时让mahout忽略),但我不希望这是一个输入练习(即过滤这些名称)我喜欢在培训输入中排除,我更喜欢发布删除,因为我已经花了很多时间手动培训。
- home:1067
- dorset:1493
- 详情:908
- 返回:867
- poole:1651
- set:819
- 帮助:743
- get:812
- 伯恩茅斯:14728
- new:2661
- avon:2684
- local:3092
- cherries:1244
- 警察:1011
- over:1813
- echo:6526
- null:79983
- 之后:2292
- stratford:2657
- 学校:1395
- 工作:881
- 工作:6982
- car:772
- 先驱:2817
- 护士:1174
- 男子:1335
- 经理:1071
- 日:759
- 时间:764
- 议会:824
- 时间:2676
标签数量:2
训练集中的文件数量:79983
标签为negative_article的前75个单词
- 斯特拉特福德:10748.598348617554
- 先驱:7579.555884361267
- avon:7484.692479610443
- 时间:7476.3635239601135
- local:7426.4039397239685
- 之后:3837.6605548858643
- 男:3512.4373264312744
- 警察:2586.899124145508
- over:1537.557123184204
- 女:1434.1630334854126
标签其他
的前75个单词
- 伯恩茅斯:39076.86379265785
- 工作:24028.39960718155
- echo:22974.801107406616
- new:10888.526140213013
- stratford:8045.635549545288
- poole:7493.278381347656
- over:7077.8266887664795
- 学校:7011.863867282867
- 当地:7004.647378444672
- dorset:6961.040742397308