php - 从维基百科XML转储中获取文章 - 按标题

我知道问题可能比看起来简单，但在阅读了大量材料之后，我真的很困惑。

所以，我已经下载了一个维基百科转储（确切地说是这个： enwiktionary-20151002-pages-articles-multistream.xml.bz2 - 据说包含了英文维基词典中的所有文章）。我想要的是按标题获取特定文章的内容（与在维基百科中搜索它的方式相同）。

注意：我不想要HTML（由维基百科生成）。我想要“真实”的内容，正如您在维基百科中“编辑”任何文章时所看到的那样。

用几句话说：

我应该怎么做？

P.S。我不是在寻找特定于语言的解决方案。我只是需要一些关于如何处理它的想法。

这两个来源之间的区别在于，在第一个中，我们设置'exintro'，在第二个链接中我们设置'explaintext'。使用“\ n \ n \ n ===”和“=== \ n”拆分这些部分。使用此信息，您可以选择一个部分的结尾，并找到一个部分的开头以及部分名称。

抱歉，这不是XML格式。