我有500家公司的名单。我需要知道每个名字出现在特定网站上的次数。这不是搜索引擎优化,而是在Stackoverflow上查看是否提到了特定的名称。
由于 T
答案 0 :(得分:0)
您将需要编写一个网络爬虫,因为您为问题选择的标记意味着。有几种语言/框架自然适合这种情况。
我自己喜欢将Ruby用于网络爬行应用程序。我的宝石包包括
Mechanize
Nokogiri
Anemone
Mechanize允许您以编程方式单击页面元素,如表单提交按钮或分页链接。 Nokogiri允许您使用XML解析页面元素。 Anemone利用Nokogiri和Robots gem让您只需几行代码即可抓取整个网站。
为了更好地介绍网页报废/抓取,我推荐了Bastard的Ruby书。
Python还有一些优秀的报废库。您可能想要开始使用The Hitchhiker的Python指南[不,我不能填写名称] :)。
http://docs.python-guide.org/en/latest/scenarios/scrape/
或Web-Scrapping 101指南
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/