根据您的经验,您认为在the Yellow Pages website中以编程方式搜索字词然后将搜索结果中的联系信息划分为CSV文件有多困难?
答案 0 :(得分:2)
你能使用YP Search API吗?访问是免费的,设置开发者帐户只需要一分钟。
答案 1 :(得分:1)
使用Perl和WWW :: Robot等模块可能并不那么难。我没有尝试,但既然你了解Python,Scrapy可能会有所帮助。 http://scrapy.org
请记住,在您抓取时不要锤击网站,因为您的IP可能会被禁止。
答案 2 :(得分:0)
使用正确的模块和库,它非常可行!这取决于你的工具,Perl或Python,你将全部设置。如果你试图用C ++做这件事你可能会有更多的痛苦前进。
如果您提供有关您的情况的更多信息(语言框架限制),我可以更具体。
还有法律问题需要考虑抓取,我不确定机器人的黄页政策。继续阅读他们的robots.txt。 http://www.robotstxt.org/应该为您提供有关了解这些内容的一些初始信息。
安全和合法的最佳方式是使用API,http://developer.yp.com/