使用BeautifulSoup刮取网站搜索引擎

时间:2017-08-29 08:14:10

标签: python beautifulsoup urllib

我试图抓取以下网站网址的搜索引擎。但是,我只收到了一小部分内容。

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup
my_url = 'https://www.kvk.nl/zoeken/#!zoeken&q=ING&index=4&site=kvk2014&start=0'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

# Data pull
page_soup = BeautifulSoup(page_html, "html.parser")

page_soup会返回几行href,而且my_url页面上没有任何信息。我只对网页上的第一个搜索结果感兴趣,所以公司的全名是:ING Bank N.V.,以及该公司的其余信息。

1 个答案:

答案 0 :(得分:0)

真实内容隐藏在js文件中,例如:

{{1}}

您应该使用chrome调试模式检查所有http请求并获取真实数据。