数据抓取工具或其他东西

时间:2015-08-21 13:26:38

标签: web-crawler import.io

我正在寻找一些我不知道如何完成的事情。我对爬行,报废等没有深入的了解,但我相信我正在寻找的那种技术就是这些。

  1. 我列出了大约100个我不断监视的网站。每3或4天至少一次。在这些网站中,我会寻找一些逻辑匹配,例如:
  2. 文字包含'ABC'并且不包含'BCZ' 或文本包含'XYZ'并且不包含'ATM' 等等

    1. 该工具必须在以下网站中查看这些网站:

      • 网页
      • DOC文件
      • DOCX文件
      • XLS文件
      • XLSX文件
      • TXT文件
      • RTF文件
      • PDF文件
      • RAR和ZIP文件
    2. 匹配必须是增量的(我只想要最近的X天)

    3. 最重要的是,在这100个网站中,大约40个网站需要用户身份验证(我已经使用过)。

    4. 每当有匹配时,我都想下载:

      • 文件
      • 链接
      • 日期/时间
      • 比赛报告
    5. 我一直在使用像import.io这样的工具,但我还没弄清楚如何正确地做到这一点!

      有谁知道我正在寻找哪种技术?谁(什么样的专家,程序员)可以为我建立这个?对于了解数据爬行的程序员来说,构建它是否太难了?

      对不起,很长的帖子

1 个答案:

答案 0 :(得分:4)

对于不需要身份验证的60个网站:

您可以使用backstitch之类的工具来标记要监控的网站,并获取包含所需关键字内容的网页的交互式缩略图Feed。 Backstitch支持使用布尔运算符(您描述的AND / OR功能),并且具有允许您以所需格式导出结果的API。

他们的支持团队(和CEO)在过去一直非常有帮助,描述了他们的API如何用于自定义搜索案例。祝你好运!