我知道问题可能比看起来简单,但在阅读了大量材料之后,我真的很困惑。
所以,我已经下载了一个维基百科转储(确切地说是这个: enwiktionary-20151002-pages-articles-multistream.xml.bz2 - 据说包含了英文维基词典中的所有文章)。我想要的是按标题获取特定文章的内容(与在维基百科中搜索它的方式相同)。
注意:我不想要HTML(由维基百科生成)。我想要“真实”的内容,正如您在维基百科中“编辑”任何文章时所看到的那样。
用几句话说:
我应该怎么做?
P.S。我不是在寻找特定于语言的解决方案。我只是需要一些关于如何处理它的想法。
答案 0 :(得分:0)
如果您只是在获取了一小部分信息后,可以使用Wikipedias JSON API ... https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exintro=&explaintext=&titles=book
如果你想要完整的文章,那么我相信你可以使用这个: https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&explaintext=&titles=book
这两个来源之间的区别在于,在第一个中,我们设置'exintro',在第二个链接中我们设置'explaintext'。使用“\ n \ n \ n ===”和“=== \ n”拆分这些部分。使用此信息,您可以选择一个部分的结尾,并找到一个部分的开头以及部分名称。
有关详细信息,请查看https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bextracts
抱歉,这不是XML格式。