我刚用import.io创建了一个提取器。这个提取器使用链接。首先,我从一个页面中提取一些网址,并使用这些提取的网址,我提取详细信息页面。当详细页面'提取完成,我想得到结果。但我怎么能确定提取完成。是否有用于检查提取状态的api端点?
我发现" GET / store / connector / {id}"传统的终点。但是当我尝试这个时,我得到了404.你可以看一下截图。
另一个问题是,我想每天安排两次我的提取器。这可能吗?
由于
答案 0 :(得分:1)
与每个提取器相关联的是爬网运行。爬网运行表示具有特定配置(培训,URL列表等)的提取器的运行。每次爬网运行的状态可以具有以下值之一:
包含的其他元数据如下:
用于获取与提取程序关联的克隆运行列表的REST API如下所示:
curl -s X GET“https://store.import.io/store/crawlrun/_search?_sort=_meta.creationTimestamp&_page=1&_perPage=30&extractorId= $ EXTRACTOR_ID& _apikey = $ IMPORT_IO_API_KEY”
,其中