如何在特定网站上搜索大量关键字列表

时间:2017-05-11 16:46:11

标签: web-crawler

我有500家公司的名单。我需要知道每个名字出现在特定网站上的次数。这不是搜索引擎优化,而是在Stackoverflow上查看是否提到了特定的名称。

由于 T

1 个答案:

答案 0 :(得分:0)

您将需要编写一个网络爬虫,因为您为问题选择的标记意味着。有几种语言/框架自然适合这种情况。

我自己喜欢将Ruby用于网络爬行应用程序。我的宝石包包括

Mechanize
Nokogiri
Anemone

Mechanize允许您以编程方式单击页面元素,如表单提交按钮或分页链接。 Nokogiri允许您使用XML解析页面元素。 Anemone利用Nokogiri和Robots gem让您只需几行代码即可抓取整个网站。

为了更好地介绍网页报废/抓取,我推荐了Bastard的Ruby书。

http://ruby.bastardsbook.com

Python还有一些优秀的报废库。您可能想要开始使用The Hitchhiker的Python指南[不,我不能填写名称] :)。

http://docs.python-guide.org/en/latest/scenarios/scrape/

或Web-Scrapping 101指南

http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/