Question

我是python的新手，想知道是否有办法通过python脚本获取网站的商业名称。

我有1000个企业需要验证他们的名字，并想知道是否可以通过查看他们的网站或地址来扩大规模，并在地址下找到注册的商家名称。

如果可能的话，我想在这里浪费我的研究时间之前在这里提出这个问题。

感谢您提供任何帮助。

Answer 1

在某些情况下，网站主页的页面标题可能是完整商家名称的近似值。

以下是ping网站主页并返回<title>标记的简单示例，该标记是商家名称的近似值。您需要安装请求和lxml库。

import requests
from lxml import etree
from StringIO import StringIO

parser = etree.HTMLParser()

urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
    r = requests.get(url)
    html = r.text
    tree  = etree.parse(StringIO(html), parser) 
    title = tree.xpath('//title/text()')
    print url, title

>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']

在其他情况下，您可能希望导航到“法律”部门。或者＆＃39;联系我们＆＃39;页面，如果您需要找到完整的合法商业名称。这更加棘手，因为该名称不一定与任何html标签相关联;它可能只是在页面上某处浮动的自由文本。

用于企业名称的python web scraper的逻辑

1 个答案: