我正在开展一个小项目,要求我找到新闻标题的关键字。我只是使用tfidf使用nltk.webtext(http://www.nltk.org/book/ch02.html#web-and-chat-text)作为语料库,并假设每个句子都作为文档。这个想法是idf会让我知道一个单词的重要性。
结果显然很大程度上取决于潜在的语料库。 Webtext显然偏向于互联网上的东西,因此它们被算法标记为不那么重要。
头条新闻将集中在政治,事件,体育等方面。所以,查尔斯狄更斯的一本书会非常中立,但有更有条理的方式来解决这个问题吗?