用于企业名称的python web scraper的逻辑

时间:2014-09-08 16:20:30

标签: python web-crawler

我是python的新手,想知道是否有办法通过python脚本获取网站的商业名称。

我有1000个企业需要验证他们的名字,并想知道是否可以通过查看他们的网站或地址来扩大规模,并在地址下找到注册的商家名称。

如果可能的话,我想在这里浪费我的研究时间之前在这里提出这个问题。

感谢您提供任何帮助。

1 个答案:

答案 0 :(得分:1)

在某些情况下,网站主页的页面标题可能是完整商家名称的近似值。

以下是ping网站主页并返回<title>标记的简单示例,该标记是商家名称的近似值。您需要安装请求和lxml库。

import requests
from lxml import etree
from StringIO import StringIO

parser = etree.HTMLParser()

urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
    r = requests.get(url)
    html = r.text
    tree  = etree.parse(StringIO(html), parser) 
    title = tree.xpath('//title/text()')
    print url, title

>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']

在其他情况下,您可能希望导航到“法律”部门。或者&#39;联系我们&#39;页面,如果您需要找到完整的合法商业名称。这更加棘手,因为该名称不一定与任何html标签相关联;它可能只是在页面上某处浮动的自由文本。