我知道在NLP中确定句子主题或可能是段落是一个挑战。但是,我试图确定标题可能是什么类似维基百科的文章(当然不使用其他方法)。我唯一能找到最常用的词。关于纽约市的文章,这些是最好的结果:
[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]
从中我可以看出某种统计意义是从361急剧下降到177.无论如何,我既不是统计学家也不是NLP专家(实际上我在两者中都是完全的noob)所以是这是一种确定较长文本主题的可行方法。如果是这样,我想用什么数学来计算呢?如果没有在NLP中有其他方法来确定更大的文本主题或标题?作为参考,我使用的是nltk和Python 3.