我想从维基百科创建一个与生物学相关的文章,所以我稍后可以使用NLP方法对其进行分析。我已经下载了一个Wikipedia转储,并以JSON格式保存。
我正在努力完成提取生物学相关文章的任务。虽然我能够使用here描述的方法找到“生物学”类别下列出的所有文章,但事实证明,此类别中只有约20篇文章直接列出。我相信如果我尝试提取属于生物门户的所有文章,我会更幸运,但我不知道如何做这样的事情。有没有方法可以提取属于某个门户的文章?
答案 0 :(得分:1)
类别是嵌套的。例如,"动物" ID可能是" Biology"。
的子类别您需要先找到所有(传递)子类别,然后收集文档。
答案 1 :(得分:1)
维基百科的类别被组织为DAG,因此您可以将生物类别节点作为根遍历树并收集相关的Wiki文章。我之前做了类似的事情(有不同的意图)并分享了GitHub回购here,它可能对你有用。