我试图抓取以下网站网址的搜索引擎。但是,我只收到了一小部分内容。
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup
my_url = 'https://www.kvk.nl/zoeken/#!zoeken&q=ING&index=4&site=kvk2014&start=0'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
# Data pull
page_soup = BeautifulSoup(page_html, "html.parser")
page_soup
会返回几行href
,而且my_url
页面上没有任何信息。我只对网页上的第一个搜索结果感兴趣,所以公司的全名是:ING Bank N.V.,以及该公司的其余信息。
答案 0 :(得分:0)
真实内容隐藏在js文件中,例如:
{{1}}
您应该使用chrome调试模式检查所有http请求并获取真实数据。