可以对维基百科页面进行标记化的Python库

时间:2012-05-24 11:59:01

标签: python web-scraping wikipedia

我想用python库或库来标记感兴趣的维基百科页面。我最感兴趣的是桌子和列表。我希望能够将这些数据导入Postgres或Neo4j。

例如,这里有三个我感兴趣的数据集:

每一个的来源都是用维基百科的标记品牌编写的,用于渲染它们。原始数据表单中使用了许多特定于维基百科的标记和语法。 HTML可能更容易解决,因为我可以使用BeautifulSoup。

任何人都知道更好的标记化方法吗?如果我使用最终的HTML并使用BeautifulSoup解析它,我觉得我会重新发明轮子。此外,如果我能找到一种以XML格式输出这些页面的方法,那么表格数据可能不会被标记化,并且需要进一步处理。

2 个答案:

答案 0 :(得分:2)

由于维基百科是基于MediWiki构建的,因此可以利用api。您还可以使用Special:Export

获得原始数据后,您可以通过mwlib运行它来解析它。

答案 1 :(得分:2)

这更多地涉及语义Web方向,但DBPedia允许使用SPARQL查询维基百科数据的部分(社区转换工作)。这使得理论上可以直接提取所需的数据,但是处理RDF三元组可能很麻烦。

此外,我不知道DBPedia是否包含您感兴趣的任何数据。