Import.io api是否支持提取器的状态?

时间:2016-11-15 15:25:52

标签: import.io

我刚用import.io创建了一个提取器。这个提取器使用链接。首先,我从一个页面中提取一些网址,并使用这些提取的网址,我提取详细信息页面。当详细页面'提取完成,我想得到结果。但我怎么能确定提取完成。是否有用于检查提取状态的api端点?

我发现" GET / store / connector / {id}"传统的终点。但是当我尝试这个时,我得到了404.你可以看一下截图。

enter image description here

另一个问题是,我想每天安排两次我的提取器。这可能吗?

由于

1 个答案:

答案 0 :(得分:1)

与每个提取器相关联的是爬网运行。爬网运行表示具有特定配置(培训,URL列表等)的提取器的运行。每次爬网运行的状态可以具有以下值之一:

  • STARTED =>目前正在运行
  • CANCELED =>已启动但已被用户取消
  • FINISHED =>运行完成

包含的其他元数据如下:

  • 已启动 - 运行开始时
  • 停止 - 运行结束时
  • 总网址数 - 运行中的网址总数
  • 成功网址计数 - 查询的成功网址数
  • 网址失败 - 查询失败网址数
  • 行计数 - 运行中返回的总行数

用于获取与提取程序关联的克隆运行列表的REST API如下所示:

curl -s X GET“https://store.import.io/store/crawlrun/_search?_sort=_meta.creationTimestamp&_page=1&_perPage=30&extractorId= $ EXTRACTOR_ID& _apikey = $ IMPORT_IO_API_KEY”

,其中

  • $ EXTRACTOR_ID - 列出抓取次数的提取器
  • $ IMPORT_IO_API_KEY - 来自您帐户的Import.io API