Question

我想使用实际的API获取维基百科文章的内容。现在，我完全了解action=render和action=raw，但我希望以纯文本形式提供最准确的版本。没有格式，没有链接，最好没有模板，没有引用，也没有TOC。举个例子，这里是SO页面的摘录：

<p><b>Stack Overflow</b> is a <a href="http://en.wikipedia.org/wiki/Website" title="Website">website</a>, part of the <a href="http://en.wikipedia.org/wiki/Stack_Exchange_Network" title="Stack Exchange Network">Stack Exchange Network</a>,<sup id="cite_ref-blog_legal_1-0" class="reference"><a href="#cite_note-blog_legal-1"><span>[</span>2<span>]</span></a></sup><sup id="cite_ref-stackapps_legal_2-0" class="reference"><a href="#cite_note-stackapps_legal-2"><span>[</span>3<span>]</span></a></sup> featuring questions and answers on a wide range of topics in <a href="http://en.wikipedia.org/wiki/Computer_programming" title="Computer programming">computer programming</a>.<sup id="cite_ref-secrets_3-0" class="reference"><a href="#cite_note-secrets-3"><span>[</span>4<span>]</span></a></sup><sup id="cite_ref-slashdot_4-0" class="reference"><a href="#cite_note-slashdot-4"><span>[</span>5<span>]</span></a></sup><sup id="cite_ref-google-tech-talks_5-0" class="reference"><a href="#cite_note-google-tech-talks-5"><span>[</span>6<span>]</span></a></sup></p>

这毕竟是模板和其他内容。我想完全删除它们，并找到真正的文章开始的地方。然后我需要将其进一步削减到类似：

Stack Overflow是一个网站，是其中的一部分 Stack Exchange网络，特色广泛的问答计算机编程专业。

如何通过模板和wiki格式来自行获取原始文章内容？这将在PHP中实现。

Answer 1

wikipedia和mediawiki api拥有您正在寻找的一切。对于SO示例，这里是SO wiki api page。

我认为你不能直接通过API获取纯文本。您需要从这些set of parsers中选择您要查找的内容。

希望这有帮助！

获取维基百科文章的内容

1 个答案: