Web数据提取和数据挖掘; Scraping vs Injection以及如何获取数据..就像昨天一样

时间:2013-05-01 02:55:47

标签: screen-scraping scrapy code-injection

我觉得我应该对这个/这些冗长的问题给出一个简短的概要..

如果所有这些问题都已在之前的问题/答案帖子中得到了具体回答,我很抱歉,但我无法找到任何专门解决以下所有问题的问题。

这个问题涉及从网络上提取数据(即网络抓取,数据挖掘等)。我花了将近一年的时间研究这些领域以及它如何应用于某个行业。我也熟悉了php和mysql / myphpmyadmin。

简而言之,我正在寻找一种尽可能快速有效地从站点(可能是几个演出)中提取信息的方法。我尝试过网络抓取程序,如scrapy和webharvey。我也尝试过像HTTrack这样的程序。所有人都有自己的优点和缺点。我发现webharvey工作得很好,但在刮取存储在图库小部件中的图像时它有其局限性。此外,我发现我提取的许多网站都使用其他方法来使挖掘数据变得痛苦。使用webharvey提取数据需要几个月的时间。鉴于我将以csv格式导出的数百万行数据提取到excel,我不能抱怨。但同样,图像和某些ajax小部件在尝试提取图像文件时会关闭程序。

所以我的问题如下:

  1. 有没有更快捷的方法来提取所述数据?
  2. 有没有办法绕过webharvey图像限制(即只能在一个图库窗口小部件中提取一个图像/无法跟踪嵌入他们的垃圾的网站上的子页面链接,并试图变得可爱编码)?
  3. 他们是否可以绕过限制搜索结果数量的网站搜索表单参数(即获取整个州内的所有商家信息,而不是仅限于每个搜索表单限制的县)**
  4. 此外,这是公共信息,因此不能受版权保护;任何人都可以接受:)(例如:Feist Publications诉农村电话服务)。提取信息是提取信息。只要我们在谈论事实/公共信息,它就是合法的。

    所以说,不是最有效的方法(这里是灰色区域)提取这个“公共”信息(假设存在漏洞),是不是通过使用sql注入?...如果是那么倾向? :)

    作为一个侧面问题,Tor在模糊IP地址方面的效果如何?洛尔

    非常感谢任何帮助,反馈,建议或批评。我绝不是上述任何领域的专家。我只是一个有动力的人,对编程和自动化越来越感兴趣,他有很多疯狂的想法。谢谢。

1 个答案:

答案 0 :(得分:0)

使用无头浏览器库(如PhantomJS(JavaScript))或测试框架(如Selenium WebDriver(Java)编写自己的Linux命令行抓取程序可能会更好。

完成scrape程序后,您可以通过将其安装在云服务器(例如Amazon EC2,Linode,Google Compute Engine或Microsoft Azure)上进行扩展,并将服务器映像复制到所需数量。< / p>