创建维基百科特定领域的文章

时间:2018-01-17 20:53:36

标签: data-mining wikipedia

我想从维基百科创建一个与生物学相关的文章,所以我稍后可以使用NLP方法对其进行分析。我已经下载了一个Wikipedia转储,并以JSON格式保存。

我正在努力完成提取生物学相关文章的任务。虽然我能够使用here描述的方法找到“生物学”类别下列出的所有文章,但事实证明,此类别中只有约20篇文章直接列出。我相信如果我尝试提取属于生物门户的所有文章,我会更幸运,但我不知道如何做这样的事情。有没有方法可以提取属于某个门户的文章?

2 个答案:

答案 0 :(得分:1)

类别是嵌套的。例如,"动物" ID可能是" Biology"。

的子类别

您需要先找到所有(传递)子类别,然后收集文档。

答案 1 :(得分:1)

维基百科的类别被组织为DAG,因此您可以将生物类别节点作为根遍历树并收集相关的Wiki文章。我之前做了类似的事情(有不同的意图)并分享了GitHub回购here,它可能对你有用。