使用Python从Wikipedia页面中提取主要文章文本

时间:2014-04-28 21:01:19

标签: python parsing extract wikipedia

我一直在搜索如何提取维基百科文章的主要文本,没有所有链接和参考。我尝试过wikitools,mwlib,BeautifulSoup等等。但我还没有真正成功。

有没有简单快捷的方式来获取明文(实际文章),并将其放在Python变量中?

解决方案:Omid Raha解决了它:)

1 个答案:

答案 0 :(得分:16)

您可以使用此package,即Wikipedia API的python包装器,

Here是一个快速入门。

首先安装它:

pip install wikipedia

示例:

import wikipedia
p = wikipedia.page("Python programming language")
print(p.url)
print(p.title)
content = p.content # Content of page.

输出:

http://en.wikipedia.org/wiki/Python_(programming_language)
Python (programming language)