该文件是XML文件还是HTML文件?我该如何解析它?

时间:2015-06-10 02:05:03

标签: html xml parsing xml-parsing html-parsing

它是100MB,所以这里有一部分: https://drive.google.com/file/d/0B1GVNHhYNzBINWl4TVFOejhtbEE/view?usp=sharing

它没有扩展,我添加了xml扩展名。

这是什么文件类型,我该如何解析它?我尝试用python解开并遇到错误。

1 个答案:

答案 0 :(得分:0)

The file you reference is an

XML export MediaWiki

另请参阅MediaWiki page form XSD

您可以使用标准XML解析器对其进行解析,该解析器以大多数语言提供,包括Python