如何从网站收集联系信息?

时间:2015-03-19 11:06:15

标签: web-scraping web-crawler scrapy google-crawlers crawler4j

有没有人知道用于从网站收集联系人详细信息的网络抓取工具?说我有一个www.website/contact ..我想提取地址,电话号码等。我一直在寻找2种工具:用于java的cralwer4j opensource jar和用Python编写的Scrapy opensource。但我觉得有点难以用于我的场景。

任何建议都会很棒。感谢

1 个答案:

答案 0 :(得分:1)

您可以谷歌搜索“simple web crawler”以找到最适合您的解决方案。在网络中有很多基于“纯python”的网络爬虫。根据sceleton代码添加db wrap up。我认为最大的问题是数据库设置和保存数据。

  

如果要抓取1000000个网站怎么办?有没有办法抓取我的所有网站?

编写脚本没问题。只需将数百万个地址放在一个文件(或文件)中,打开它以便在python或其他脚本中读取。然后通过链接从它获取链接并抓取/抓取您的乐趣。结果您可能还想保存在文件(csv,json)中。

我还建议您准备好simple python crawler