Question

我试图抓取以下网站网址的搜索引擎。但是，我只收到了一小部分内容。

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup
my_url = 'https://www.kvk.nl/zoeken/#!zoeken&q=ING&index=4&site=kvk2014&start=0'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

# Data pull
page_soup = BeautifulSoup(page_html, "html.parser")

page_soup会返回几行href，而且my_url页面上没有任何信息。我只对网页上的第一个搜索结果感兴趣，所以公司的全名是：ING Bank N.V.，以及该公司的其余信息。

Answer 1

真实内容隐藏在js文件中，例如：

{{1}}

您应该使用chrome调试模式检查所有http请求并获取真实数据。

使用BeautifulSoup刮取网站搜索引擎

1 个答案: