我正在寻找一种方法来使用python提取维基百科文章的主要文本。我知道" wikipedia"库,但在我的情况下,我已经下载了html页面,我只需要提取文本。我无法使用该库,因为我需要使用几年前下载的维基百科页面html,因此我无法从头开始下载。
是否有现成的#34;"我可以用于此目的的解决方案吗?
答案 0 :(得分:2)
尝试 BeautifulSoup :
from bs4 import BeautifulSoup
import requests
respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow")
soup = BeautifulSoup(respond.text)
l = soup.find_all('p')
print l[0].text
答案 1 :(得分:0)
您可以使用以下python模块:
pip install wikipedia