标签: nlp wikipedia
我需要从Wikipedia中提取信息,但是我不知道如何进行。我要做的是以下事情:
给出一个单词“ w”,我如何计算“ w”在整个英语维基百科中出现的次数?网上是否已有列表?如果没有,我该怎么做?我是编码的新手,我正在尝试一些与NLP相关的任务的实验。
答案 0 :(得分:0)
首先下载Wikipedia转储(例如XML格式) 如果您使用的是基于UNIX的操作系统(例如LINUX或Mac OS X),则可以使用grep。 参见here
Python也可用于计算文件中指定字符串的出现次数 参见here