应用错误收集

我已经设置了mahout来为新闻文章提供一些分类，所以我只能提取那些感兴趣的新闻文章。

我已经通过人工培训了这些新闻文章的标题，完成了大约80,000篇（我想要的文章和不想要的文章）

我写了一个应用程序，输出顶部单词及其分数，似乎某些关键词正在高高在上。

一些所谓的顶级单词是误报， - 它们只是顶部，因为每个标题页都有它们。

像斯特拉特福德先驱报＆＃39; （这是报纸的名称） - 一旦模型已经创建，是否还要删除它们？

我想简单地删除大约20个顶级单词（或者在提供最佳标签时让mahout忽略），但我不希望这是一个输入练习（即过滤这些名称）我喜欢在培训输入中排除，我更喜欢发布删除，因为我已经花了很多时间手动培训。