我想在一个网站上阅读几页内容,少数哦,我的代码可以正常工作,但其余的不是。奇怪的字符出现:Å,......等等。
articles = ""
url = "http://www.someurl.com"
sock = urllib.urlopen(url)
content = sock.read()
sock.close()
soup = BeautifulSoup(content)
div = soup.find("div", class_="col-d")
ps = div.find_all("p")
for p in ps:
print type(p.get_text())
print type(p.get_text().encode('utf-8'))
print p.get_text()
输出结果为:
<type 'unicode'><type 'str'>różni się znacząco. Dziś, zgodnie z danymi Lion’s House i Home Brokera, przeciętnego zapłacić niespełna 2,1 tys. zł miesięcznie. Gdyby taką samą nieruchomość kupić na kredyt, to w pierwszym roku część ods
您知道任何解决方案吗?
答案 0 :(得分:2)
这是一种使用Requests库(以及随机的波兰语网站)的方法。
import requests
from bs4 import BeautifulSoup
r = requests.get("http://pl.bab.la/slownik/polski-niemiecki/zgodnie-z")
soup = BeautifulSoup(r.text, fromEncoding="UTF-8")
soup.find(id="showMoreCSDiv").text
此代码查找此HTML:
<div id="showMoreCSDiv"><a class="btn" id="showMoreCS" href="javascript:babGetMoreCS(20,'zgodnie z');">więcej</a></div>
它返回:
więcej