难以实现此爬虫

时间:2012-10-18 02:42:26

标签: web-crawler

根据您的经验,您认为在the Yellow Pages website中以编程方式搜索字词然后将搜索结果中的联系信息划分为CSV文件有多困难?

3 个答案:

答案 0 :(得分:2)

你能使用YP Search API吗?访问是免费的,设置开发者帐户只需要一分钟。

答案 1 :(得分:1)

使用Perl和WWW :: Robot等模块可能并不那么难。我没有尝试,但既然你了解Python,Scrapy可能会有所帮助。 http://scrapy.org

请记住,在您抓取时不要锤击网站,因为您的IP可能会被禁止。

答案 2 :(得分:0)

使用正确的模块和库,它非常可行!这取决于你的工具,Perl或Python,你将全部设置。如果你试图用C ++做这件事你可能会有更多的痛苦前进。

如果您提供有关您的情况的更多信息(语言框架限制),我可以更具体。

还有法律问题需要考虑抓取,我不确定机器人的黄页政策。继续阅读他们的robots.txt。 http://www.robotstxt.org/应该为您提供有关了解这些内容的一些初始信息。

安全和合法的最佳方式是使用API​​,http://developer.yp.com/