我在这方面很陌生,我试图找到一种自动查找网站列表的方法。我有一个非常大的公司列表,基本上我希望算法将公司键入Google,点击第一个链接(很可能是公司网站)并确定公司是否与目标行业相匹配(冰淇淋经销商) )或与行业有关。我想要检查的方法是查看主页是否包含给定字典中的任何关键词(比如说,'巧克力,香草,冰淇淋等等'巧克力,香草,冰淇淋等等# 39)。我非常感谢你的帮助 - 非常感谢你。
答案 0 :(得分:0)
我建议使用请求和lxml的组合。要做到这一点,你可以做类似的事情。 导入请求 来自lxml.cssselect导入CSSSelector 来自lxml import html
使用requests
或grequests
从所有网页获取html。
queries = ['cats', 'dogs']
queries = [requests.get(x) for x in queries]
data = [x.text for x in queries]
使用lxml
解析html并提取每页上的第一个链接。
data = [html.document_fromstring(x) for x in data]
sel = CSSSelector('h3.r a')
links = [sel(x)[0] for x in data]
终于从所有第一批结果中获取了html。
pages = [requests.get(a.attrib['href'] for a in links]
这将为您提供所需页面的html字符串。从那里你应该能够在页面html中搜索你想要的单词。您可能会发现counter
有帮助。