应用错误收集

如何从网站收集联系信息？

时间：2015-03-19 11:06:15

标签： web-scraping web-crawler scrapy google-crawlers crawler4j

有没有人知道用于从网站收集联系人详细信息的网络抓取工具？说我有一个www.website/contact ..我想提取地址，电话号码等。我一直在寻找2种工具：用于java的cralwer4j opensource jar和用Python编写的Scrapy opensource。但我觉得有点难以用于我的场景。

任何建议都会很棒。感谢

1 个答案:

答案 0 :(得分：1)

您可以谷歌搜索“simple web crawler”以找到最适合您的解决方案。在网络中有很多基于“纯python”的网络爬虫。根据sceleton代码添加db wrap up。我认为最大的问题是数据库设置和保存数据。

如果要抓取1000000个网站怎么办？有没有办法抓取我的所有网站？

编写脚本没问题。只需将数百万个地址放在一个文件（或文件）中，打开它以便在python或其他脚本中读取。然后通过链接从它获取链接并抓取/抓取您的乐趣。结果您可能还想保存在文件（csv，json）中。