我正在寻找一些我不知道如何完成的事情。我对爬行,报废等没有深入的了解,但我相信我正在寻找的那种技术就是这些。
文字包含'ABC'并且不包含'BCZ' 或文本包含'XYZ'并且不包含'ATM' 等等
该工具必须在以下网站中查看这些网站:
匹配必须是增量的(我只想要最近的X天)
最重要的是,在这100个网站中,大约40个网站需要用户身份验证(我已经使用过)。
每当有匹配时,我都想下载:
我一直在使用像import.io这样的工具,但我还没弄清楚如何正确地做到这一点!
有谁知道我正在寻找哪种技术?谁(什么样的专家,程序员)可以为我建立这个?对于了解数据爬行的程序员来说,构建它是否太难了?
对不起,很长的帖子
答案 0 :(得分:4)
对于不需要身份验证的60个网站:
您可以使用backstitch之类的工具来标记要监控的网站,并获取包含所需关键字内容的网页的交互式缩略图Feed。 Backstitch支持使用布尔运算符(您描述的AND / OR功能),并且具有允许您以所需格式导出结果的API。
他们的支持团队(和CEO)在过去一直非常有帮助,描述了他们的API如何用于自定义搜索案例。祝你好运!