我需要以一种稍微方便的形式从wiki转储中的表中提取数据,例如列表清单。但是,由于转储的格式,它看起来有点棘手。我知道WikiExtractor,这对于从转储中获取干净的文本很有用,但它完全丢弃了表。是否有一个解析器可以以相同的方式为我提供方便可读的表格?
答案 0 :(得分:0)
我没有找到一种从XML转储中解析Wikipedia表的好方法。但是,似乎有一些方法可以使用HTML解析器,例如wikitables解析器。除非您只需要分析特定页面中的表,否则这需要大量的抓取。但是,似乎可以离线执行,因为似乎HTML Wiki转储即将恢复(dumps,phabricator task)