Question

我知道在NLP中确定句子主题或可能是段落是一个挑战。但是，我试图确定标题可能是什么类似维基百科的文章（当然不使用其他方法）。我唯一能找到最常用的词。关于纽约市的文章，这些是最好的结果：

[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]

从中我可以看出某种统计意义是从361急剧下降到177.无论如何，我既不是统计学家也不是NLP专家（实际上我在两者中都是完全的noob）所以是这是一种确定较长文本主题的可行方法。如果是这样，我想用什么数学来计算呢？如果没有在NLP中有其他方法来确定更大的文本主题或标题？作为参考，我使用的是nltk和Python 3.

Answer 1

您可以考虑使用以下算法。这些是关键字提取算法

TF-IDF

TextRank

Here是一个教程，让您开始在ntlk中使用TF-IDF

Answer 2

如果您有足够的数据并希望拥有更大的文本主题（如段落或文章），则可以使用主题建模方法，例如LDA。

Gensim有一个易于使用的LDA实现。

如何找到文本主体的主题

2 个答案: