Question

在某些页面中，当我使用beautifulsoup时，不返回任何内容......只是空白页。

from bs4 import BeautifulSoup
import urllib.request

Site = "http://gall.dcinside.com/board/lists/?id=parkbogum&page=2"
URL = Site
html = urllib.request.urlopen(URL).read()
soup = BeautifulSoup(html, "html.parser")
print(soup)

除了这个网站，我可以使用beautifulsoup任何其他网站。而且我不知道......

Answer 1

此网址要求在请求时传递某些标头。在请求URL时传递此headers参数，您将获得HTML。

HTML = requests.get(URL , headers = headers).content

而

headers = {
"method":"GET",
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36     
(KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36",
"Host":"gall.dcinside.com",
"Pragma":"no-cache",
"Upgrade-Insecure-Requests":"1",
"Accept":"text/html,application/xhtml+xml,
application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"
}

Answer 2

某些网站服务器会查找试图访问其网页的机器人脚本。执行此操作的一种更简单的方法是检查浏览器发送的User-Agent。在这种情况下，当您使用的是Python而不是Web浏览器时，会发送以下内容：

python-requests/2.18.4

当它看到一个它不喜欢的代理时，它什么也不会返回。要解决此问题，您需要更改请求中的User-Agent字符串。有数百种可供选择，因为代理字符串随浏览器的每个版本而变化。例如，请参阅此Firefox User-Agent strings列表，例如

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1
Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0

诀窍是尝试一些，找到服务器满意的一个。在您的情况下，只需要更改标题，以便从网站返回HTML。在某些情况下，还需要使用cookie。

通过传递字典可以轻松更改标题。这可以使用requests完成，如下所示：

from bs4 import BeautifulSoup
import requests

url = "http://gall.dcinside.com/board/lists/?id=parkbogum&page=2"
html = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (iPad; U; CPU OS 3_2_1 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Mobile/7B405'}).content
soup = BeautifulSoup(html, "html.parser")
print(soup)

Answer 3

我可以看到，这个网站正在使用cookies。您可以在浏览器的开发者工具中查看标题。您可以通过以下方式获取cookie：

import urllib.request
r = urllib.request.urlopen(URL)
ck = r.getheader('Set-Cookie')

现在您可以像这样创建标题并将其与后续请求一起发送。

headers = {                                                                                                                                                         
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Cookie": ck,                        
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"
}

req = urllib.request.Request(URL, headers=headers)
html = urllib.request.urlopen(req).read()

Python3，beautifulsoup，在特定页面中不返回任何内容

3 个答案: