如何找到文本主体的主题

时间:2016-07-25 23:52:53

标签: python python-3.x nlp nltk

我知道在NLP中确定句子主题或可能是段落是一个挑战。但是,我试图确定标题可能是什么类似维基百科的文章(当然不使用其他方法)。我唯一能找到最常用的词。关于纽约市的文章,这些是最好的结果:

[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]

从中我可以看出某种统计意义是从361急剧下降到177.无论如何,我既不是统计学家也不是NLP专家(实际上我在两者中都是完全的noob)所以是这是一种确定较长文本主题的可行方法。如果是这样,我想用什么数学来计算呢?如果没有在NLP中有其他方法来确定更大的文本主题或标题?作为参考,我使用的是nltk和Python 3.

2 个答案:

答案 0 :(得分:5)

您可以考虑使用以下算法。这些是关键字提取算法

TF-IDF

TextRank

Here是一个教程,让您开始在ntlk中使用TF-IDF

答案 1 :(得分:2)

如果您有足够的数据并希望拥有更大的文本主题(如段落或文章),则可以使用主题建模方法,例如LDA

Gensim有一个易于使用的LDA实现。