计算维基百科中单词的出现频率

时间:2019-10-15 09:58:09

标签: nlp wikipedia

我需要从Wikipedia中提取信息,但是我不知道如何进行。我要做的是以下事情:

给出一个单词“ w”,我如何计算“ w”在整个英语维基百科中出现的次数?网上是否已有列表?如果没有,我该怎么做?我是编码的新手,我正在尝试一些与NLP相关的任务的实验。

1 个答案:

答案 0 :(得分:0)

首先下载Wikipedia转储(例如XML格式)
如果您使用的是基于UNIX的操作系统(例如LINUX或Mac OS X),则可以使用grep。 参见here

Python也可用于计算文件中指定字符串的出现次数
参见here