如何使用python web抓取在此html中获取公司名称?

时间:2020-05-03 07:36:36

标签: python beautifulsoup python-requests lxml

我正在yellowpages.com.au上刮擦公司名称,并且备有如何找到正确的元素(div类)以查找所有名称的库存。 下面是我的python代码和要在其中刮取公司名称信息的url。 每次运行此代码,我一无所获。

``` import bs4
from bs4 import BeautifulSoup
import lxml
import requests

url='https://www.yellowpages.com.au/search/listings?clue=plywood&locationClue=Northern+Territory&lat=&lon='

response=requests.get(url)
print('ok')

soup=BeautifulSoup(response.text,'lxml')
page=soup.find_all('div', class_="body left")
print(page) ```

我已经附上了经过检查的网站/网址的图片。

希望您可以帮助我找到正确的元素或重写我的代码。enter image description here

1 个答案:

答案 0 :(得分:0)

也许考虑以下免费API

http://developers.sensis.com.au/docs/endpoint_reference

来自:

http://developers.sensis.com.au/

请参阅ToS:

http://developers.sensis.com.au/Terms_of_Service

他们维护着大量的黄色和白色非盟业务清单。 API端点包括search

http://developers.sensis.com.au/docs/endpoint_reference/Search

规格摘要:

https://www.programmableweb.com/api/sensis-business-search-rest-api

从文档看似乎很简单。您需要注册一个API密钥。