应用错误收集

数据抓取工具或其他东西

时间：2015-08-21 13:26:38

标签： web-crawler import.io

我正在寻找一些我不知道如何完成的事情。我对爬行，报废等没有深入的了解，但我相信我正在寻找的那种技术就是这些。

我列出了大约100个我不断监视的网站。每3或4天至少一次。在这些网站中，我会寻找一些逻辑匹配，例如：

文字包含'ABC'并且不包含'BCZ' 或文本包含'XYZ'并且不包含'ATM' 等等

该工具必须在以下网站中查看这些网站：
- 网页
- DOC文件
- DOCX文件
- XLS文件
- XLSX文件
- TXT文件
- RTF文件
- PDF文件
- RAR和ZIP文件
匹配必须是增量的（我只想要最近的X天）
最重要的是，在这100个网站中，大约40个网站需要用户身份验证（我已经使用过）。
每当有匹配时，我都想下载：
- 文件
- 链接
- 日期/时间
- 比赛报告

我一直在使用像import.io这样的工具，但我还没弄清楚如何正确地做到这一点！

有谁知道我正在寻找哪种技术？谁（什么样的专家，程序员）可以为我建立这个？对于了解数据爬行的程序员来说，构建它是否太难了？

对不起，很长的帖子

1 个答案:

答案 0 :(得分：4)

对于不需要身份验证的60个网站：

您可以使用backstitch之类的工具来标记要监控的网站，并获取包含所需关键字内容的网页的交互式缩略图Feed。 Backstitch支持使用布尔运算符（您描述的AND / OR功能），并且具有允许您以所需格式导出结果的API。

他们的支持团队（和CEO）在过去一直非常有帮助，描述了他们的API如何用于自定义搜索案例。祝你好运！