生成Web查询列表

时间:2014-09-30 02:29:52

标签: python sql

我在这方面很陌生,我试图找到一种自动查找网站列表的方法。我有一个非常大的公司列表,基本上我希望算法将公司键入Google,点击第一个链接(很可能是公司网站)并确定公司是否与目标行业相匹配(冰淇淋经销商) )或与行业有关。我想要检查的方法是查看主页是否包含给定字典中的任何关键词(比如说,'巧克力,香草,冰淇淋等等'巧克力,香草,冰淇淋等等# 39)。我非常感谢你的帮助 - 非常感谢你。

1 个答案:

答案 0 :(得分:0)

我建议使用请求和lxml的组合。要做到这一点,你可以做类似的事情。     导入请求     来自lxml.cssselect导入CSSSelector     来自lxml import html

使用requestsgrequests从所有网页获取html。

queries = ['cats', 'dogs']
queries = [requests.get(x) for x in queries]
data = [x.text for x in queries]

使用lxml解析html并提取每页上的第一个链接。

data = [html.document_fromstring(x) for x in data]
sel = CSSSelector('h3.r a')
links = [sel(x)[0] for x in data]

终于从所有第一批结果中获取了html。

pages = [requests.get(a.attrib['href'] for a in links]

这将为您提供所需页面的html字符串。从那里你应该能够在页面html中搜索你想要的单词。您可能会发现counter有帮助。