应用错误收集

时间：2012-10-18 02:42:26

标签： web-crawler

根据您的经验，您认为在the Yellow Pages website中以编程方式搜索字词然后将搜索结果中的联系信息划分为CSV文件有多困难？

答案 0 :(得分：2)

你能使用YP Search API吗？访问是免费的，设置开发者帐户只需要一分钟。

答案 1 :(得分：1)

使用Perl和WWW :: Robot等模块可能并不那么难。我没有尝试，但既然你了解Python，Scrapy可能会有所帮助。 http://scrapy.org

请记住，在您抓取时不要锤击网站，因为您的IP可能会被禁止。

答案 2 :(得分：0)

使用正确的模块和库，它非常可行！这取决于你的工具，Perl或Python，你将全部设置。如果你试图用C ++做这件事你可能会有更多的痛苦前进。

如果您提供有关您的情况的更多信息（语言框架限制），我可以更具体。

还有法律问题需要考虑抓取，我不确定机器人的黄页政策。继续阅读他们的robots.txt。 http://www.robotstxt.org/应该为您提供有关了解这些内容的一些初始信息。

安全和合法的最佳方式是使用API，http://developer.yp.com/