有没有人知道用于从网站收集联系人详细信息的网络抓取工具?说我有一个www.website/contact ..我想提取地址,电话号码等。我一直在寻找2种工具:用于java的cralwer4j opensource jar和用Python编写的Scrapy opensource。但我觉得有点难以用于我的场景。
任何建议都会很棒。感谢
答案 0 :(得分:1)
您可以谷歌搜索“simple web crawler”以找到最适合您的解决方案。在网络中有很多基于“纯python”的网络爬虫。根据sceleton代码添加db wrap up。我认为最大的问题是数据库设置和保存数据。
如果要抓取1000000个网站怎么办?有没有办法抓取我的所有网站?
编写脚本没问题。只需将数百万个地址放在一个文件(或文件)中,打开它以便在python或其他脚本中读取。然后通过链接从它获取链接并抓取/抓取您的乐趣。结果您可能还想保存在文件(csv,json)中。
我还建议您准备好simple python crawler。