应用错误收集

我觉得我应该对这个/这些冗长的问题给出一个简短的概要..

如果所有这些问题都已在之前的问题/答案帖子中得到了具体回答，我很抱歉，但我无法找到任何专门解决以下所有问题的问题。

这个问题涉及从网络上提取数据（即网络抓取，数据挖掘等）。我花了将近一年的时间研究这些领域以及它如何应用于某个行业。我也熟悉了php和mysql / myphpmyadmin。

简而言之，我正在寻找一种尽可能快速有效地从站点（可能是几个演出）中提取信息的方法。我尝试过网络抓取程序，如scrapy和webharvey。我也尝试过像HTTrack这样的程序。所有人都有自己的优点和缺点。我发现webharvey工作得很好，但在刮取存储在图库小部件中的图像时它有其局限性。此外，我发现我提取的许多网站都使用其他方法来使挖掘数据变得痛苦。使用webharvey提取数据需要几个月的时间。鉴于我将以csv格式导出的数百万行数据提取到excel，我不能抱怨。但同样，图像和某些ajax小部件在尝试提取图像文件时会关闭程序。

所以我的问题如下：

有没有更快捷的方法来提取所述数据？
有没有办法绕过webharvey图像限制（即只能在一个图库窗口小部件中提取一个图像/无法跟踪嵌入他们的垃圾的网站上的子页面链接，并试图变得可爱编码）？
他们是否可以绕过限制搜索结果数量的网站搜索表单参数（即获取整个州内的所有商家信息，而不是仅限于每个搜索表单限制的县）**

此外，这是公共信息，因此不能受版权保护;任何人都可以接受:)（例如：Feist Publications诉农村电话服务）。提取信息是提取信息。只要我们在谈论事实/公共信息，它就是合法的。

所以说，不是最有效的方法（这里是灰色区域）提取这个“公共”信息（假设存在漏洞），是不是通过使用sql注入？...如果是那么倾向？：）

作为一个侧面问题，Tor在模糊IP地址方面的效果如何？洛尔

非常感谢任何帮助，反馈，建议或批评。我绝不是上述任何领域的专家。我只是一个有动力的人，对编程和自动化越来越感兴趣，他有很多疯狂的想法。谢谢。

Web数据提取和数据挖掘; Scraping vs Injection以及如何获取数据..就像昨天一样

1 个答案: