应用错误收集

我正在开展一个小项目，要求我找到新闻标题的关键字。我只是使用tfidf使用nltk.webtext（http://www.nltk.org/book/ch02.html#web-and-chat-text）作为语料库，并假设每个句子都作为文档。这个想法是idf会让我知道一个单词的重要性。

结果显然很大程度上取决于潜在的语料库。 Webtext显然偏向于互联网上的东西，因此它们被算法标记为不那么重要。

头条新闻将集中在政治，事件，体育等方面。所以，查尔斯狄更斯的一本书会非常中立，但有更有条理的方式来解决这个问题吗？