Question

我想从公司网址中提取公司详细信息。

示例：

https://www.company.de-> {"name": "company", "foundation_date": "1992.08.21", locations: [...,...]}

我没有找到合适的服务或自制解决方案，有什么想法吗？

Answer 1

对我来说听起来像是您想抄袭网址以提取公司的联系方式？这将需要您使用诸如BeautifulSoup之类的工具来构建刮板，但是您将需要分别从html标签中获取所需的详细信息。也许这可以帮助您入门：

from bs4 import BeautifulSoup
from urllib.request import urlopen as uReq
company_url = 'https://www.samplecompany.abc/contactdetails.htmls'
uClient = uReq(company_url)
page_html = uClient.read()
uClient.close()
page_soup = BeautifulSoup(page_html , 'html.parser' )
contacts = page_soup.find_all('table' , class_ = 'contact')
contact_details = contacts0]
phone =contact_details.find_all('span' , attrs = {'class': 'phone'})

从网址中提取公司详细信息

1 个答案: