mahout最高分词和误报

时间:2013-10-15 14:29:14

标签: mahout

我已经设置了mahout来为新闻文章提供一些分类,所以我只能提取那些感兴趣的新闻文章。

我已经通过人工培训了这些新闻文章的标题,完成了大约80,000篇(我想要的文章和不想要的文章)

我写了一个应用程序,输出顶部单词及其分数,似乎某些关键词正在高高在上。

一些所谓的顶级单词是误报, - 它们只是顶部,因为每个标题页都有它们。

像斯特拉特福德先驱报' (这是报纸的名称) - 一旦模型已经创建,是否还要删除它们?

我想简单地删除大约20个顶级单词(或者在提供最佳标签时让mahout忽略),但我不希望这是一个输入练习(即过滤这些名称)我喜欢在培训输入中排除,我更喜欢发布删除,因为我已经花了很多时间手动培训。

  • home:1067
  • dorset:1493
  • 详情:908
  • 返回:867
  • poole:1651
  • set:819
  • 帮助:743
  • get:812
  • 伯恩茅斯:14728
  • new:2661
  • avon:2684
  • local:3092
  • cherries:1244
  • 警察:1011
  • over:1813
  • echo:6526
  • null:79983
  • 之后:2292
  • stratford:2657
  • 学校:1395
  • 工作:881
  • 工作:6982
  • car:772
  • 先驱:2817
  • 护士:1174
  • 男子:1335
  • 经理:1071
  • 日:759
  • 时间:764
  • 议会:824
  • 时间:2676 标签数量:2 训练集中的文件数量:79983 标签为negative_article的前75个单词
  • 斯特拉特福德:10748.598348617554
  • 先驱:7579.555884361267
  • avon:7484.692479610443
  • 时间:7476.3635239601135
  • local:7426.4039397239685
  • 之后:3837.6605548858643
  • 男:3512.4373264312744
  • 警察:2586.899124145508
  • over:1537.557123184204
  • 女:1434.1630334854126 标签其他
  • 的前75个单词
  • 伯恩茅斯:39076.86379265785
  • 工作:24028.39960718155
  • echo:22974.801107406616
  • new:10888.526140213013
  • stratford:8045.635549545288
  • poole:7493.278381347656
  • over:7077.8266887664795
  • 学校:7011.863867282867
  • 当地:7004.647378444672
  • dorset:6961.040742397308

0 个答案:

没有答案