使用Python从Wikipedia html中提取文本

时间:2014-10-09 17:30:36

标签: python html wikipedia

我正在寻找一种方法来使用python提取维基百科文章的主要文本。我知道" wikipedia"库,但在我的情况下,我已经下载了html页面,我只需要提取文本。我无法使用该库,因为我需要使用几年前下载的维基百科页面html,因此我无法从头开始下载。

是否有现成的#34;"我可以用于此目的的解决方案吗?

2 个答案:

答案 0 :(得分:2)

尝试 BeautifulSoup

from bs4 import BeautifulSoup
import requests

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow")
soup = BeautifulSoup(respond.text)
l = soup.find_all('p')
print l[0].text

答案 1 :(得分:0)

您可以使用以下python模块:

pip install wikipedia