我是python的新手,想知道是否有办法通过python脚本获取网站的商业名称。
我有1000个企业需要验证他们的名字,并想知道是否可以通过查看他们的网站或地址来扩大规模,并在地址下找到注册的商家名称。
如果可能的话,我想在这里浪费我的研究时间之前在这里提出这个问题。
感谢您提供任何帮助。
答案 0 :(得分:1)
在某些情况下,网站主页的页面标题可能是完整商家名称的近似值。
以下是ping网站主页并返回<title>
标记的简单示例,该标记是商家名称的近似值。您需要安装请求和lxml库。
import requests
from lxml import etree
from StringIO import StringIO
parser = etree.HTMLParser()
urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
r = requests.get(url)
html = r.text
tree = etree.parse(StringIO(html), parser)
title = tree.xpath('//title/text()')
print url, title
>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']
在其他情况下,您可能希望导航到“法律”部门。或者&#39;联系我们&#39;页面,如果您需要找到完整的合法商业名称。这更加棘手,因为该名称不一定与任何html标签相关联;它可能只是在页面上某处浮动的自由文本。