从网址中提取公司详细信息

时间:2019-12-25 09:44:55

标签: python go backend

我想从公司网址中提取公司详细信息。

示例:

https://www.company.de->  {"name": "company", "foundation_date": "1992.08.21", locations: [...,...]}

我没有找到合适的服务或自制解决方案,有什么想法吗?

1 个答案:

答案 0 :(得分:0)

对我来说听起来像是您想抄袭网址以提取公司的联系方式?这将需要您使用诸如BeautifulSoup之类的工具来构建刮板,但是您将需要分别从html标签中获取所需的详细信息。也许这可以帮助您入门:

from bs4 import BeautifulSoup
from urllib.request import urlopen as uReq
company_url = 'https://www.samplecompany.abc/contactdetails.htmls'
uClient = uReq(company_url)
page_html = uClient.read()
uClient.close()
page_soup = BeautifulSoup(page_html , 'html.parser' )
contacts = page_soup.find_all('table' , class_ = 'contact')
contact_details = contacts0]
phone =contact_details.find_all('span' , attrs = {'class': 'phone'})
相关问题