用于在新闻标题中查找重要单词的文本语料库

时间:2014-04-18 11:49:17

标签: machine-learning nltk corpus

我正在开展一个小项目,要求我找到新闻标题的关键字。我只是使用tfidf使用nltk.webtext(http://www.nltk.org/book/ch02.html#web-and-chat-text)作为语料库,并假设每个句子都作为文档。这个想法是idf会让我知道一个单词的重要性。

结果显然很大程度上取决于潜在的语料库。 Webtext显然偏向于互联网上的东西,因此它们被算法标记为不那么重要。

  1. 根据您的要求将是相关的语料库,
  2. 相应的文件是什么?
  3. 头条新闻将集中在政治,事件,体育等方面。所以,查尔斯狄更斯的一本书会非常中立,但有更有条理的方式来解决这个问题吗?

0 个答案:

没有答案