应用错误收集

可以对维基百科页面进行标记化的Python库

时间：2012-05-24 11:59:01

标签： python web-scraping wikipedia

我想用python库或库来标记感兴趣的维基百科页面。我最感兴趣的是桌子和列表。我希望能够将这些数据导入Postgres或Neo4j。

例如，这里有三个我感兴趣的数据集：

2008年欧洲歌唱大赛中，每个国家相互奖励了多少分： http://en.wikipedia.org/wiki/Eurovision_Song_Contest_2008#Final
货币清单及其流通的国家/地区（多对多关系）： http://en.wikipedia.org/wiki/List_of_circulating_currencies
世界各地的太阳能发电厂名单：http://en.wikipedia.org/wiki/List_of_solar_thermal_power_stations

每一个的来源都是用维基百科的标记品牌编写的，用于渲染它们。原始数据表单中使用了许多特定于维基百科的标记和语法。 HTML可能更容易解决，因为我可以使用BeautifulSoup。

任何人都知道更好的标记化方法吗？如果我使用最终的HTML并使用BeautifulSoup解析它，我觉得我会重新发明轮子。此外，如果我能找到一种以XML格式输出这些页面的方法，那么表格数据可能不会被标记化，并且需要进一步处理。

2 个答案:

答案 0 :(得分：2)

由于维基百科是基于MediWiki构建的，因此可以利用api。您还可以使用Special:Export。

获得原始数据后，您可以通过mwlib运行它来解析它。

答案 1 :(得分：2)

这更多地涉及语义Web方向，但DBPedia允许使用SPARQL查询维基百科数据的部分（社区转换工作）。这使得理论上可以直接提取所需的数据，但是处理RDF三元组可能很麻烦。

此外，我不知道DBPedia是否包含您感兴趣的任何数据。