我想用python库或库来标记感兴趣的维基百科页面。我最感兴趣的是桌子和列表。我希望能够将这些数据导入Postgres或Neo4j。
例如,这里有三个我感兴趣的数据集:
每一个的来源都是用维基百科的标记品牌编写的,用于渲染它们。原始数据表单中使用了许多特定于维基百科的标记和语法。 HTML可能更容易解决,因为我可以使用BeautifulSoup。
任何人都知道更好的标记化方法吗?如果我使用最终的HTML并使用BeautifulSoup解析它,我觉得我会重新发明轮子。此外,如果我能找到一种以XML格式输出这些页面的方法,那么表格数据可能不会被标记化,并且需要进一步处理。
答案 0 :(得分:2)
由于维基百科是基于MediWiki构建的,因此可以利用api。您还可以使用Special:Export。
获得原始数据后,您可以通过mwlib运行它来解析它。
答案 1 :(得分:2)
这更多地涉及语义Web方向,但DBPedia允许使用SPARQL查询维基百科数据的部分(社区转换工作)。这使得理论上可以直接提取所需的数据,但是处理RDF三元组可能很麻烦。
此外,我不知道DBPedia是否包含您感兴趣的任何数据。