我觉得我应该对这个/这些冗长的问题给出一个简短的概要..
如果所有这些问题都已在之前的问题/答案帖子中得到了具体回答,我很抱歉,但我无法找到任何专门解决以下所有问题的问题。
这个问题涉及从网络上提取数据(即网络抓取,数据挖掘等)。我花了将近一年的时间研究这些领域以及它如何应用于某个行业。我也熟悉了php和mysql / myphpmyadmin。
简而言之,我正在寻找一种尽可能快速有效地从站点(可能是几个演出)中提取信息的方法。我尝试过网络抓取程序,如scrapy和webharvey。我也尝试过像HTTrack这样的程序。所有人都有自己的优点和缺点。我发现webharvey工作得很好,但在刮取存储在图库小部件中的图像时它有其局限性。此外,我发现我提取的许多网站都使用其他方法来使挖掘数据变得痛苦。使用webharvey提取数据需要几个月的时间。鉴于我将以csv格式导出的数百万行数据提取到excel,我不能抱怨。但同样,图像和某些ajax小部件在尝试提取图像文件时会关闭程序。
所以我的问题如下:
此外,这是公共信息,因此不能受版权保护;任何人都可以接受:)(例如:Feist Publications诉农村电话服务)。提取信息是提取信息。只要我们在谈论事实/公共信息,它就是合法的。
所以说,不是最有效的方法(这里是灰色区域)提取这个“公共”信息(假设存在漏洞),是不是通过使用sql注入?...如果是那么倾向? :)
作为一个侧面问题,Tor在模糊IP地址方面的效果如何?洛尔
非常感谢任何帮助,反馈,建议或批评。我绝不是上述任何领域的专家。我只是一个有动力的人,对编程和自动化越来越感兴趣,他有很多疯狂的想法。谢谢。
答案 0 :(得分:0)
使用无头浏览器库(如PhantomJS(JavaScript))或测试框架(如Selenium WebDriver(Java)编写自己的Linux命令行抓取程序可能会更好。
完成scrape程序后,您可以通过将其安装在云服务器(例如Amazon EC2,Linode,Google Compute Engine或Microsoft Azure)上进行扩展,并将服务器映像复制到所需数量。< / p>