从import.io列出提取器

时间:2016-07-18 09:16:47

标签: python web-crawler import.io

我想知道如何从我的import.io提取器获取爬行数据(通过GUI手动输入的URL列表)。 API文档非常稀缺,并且它没有指定我制作的GET请求是否实际启动了爬虫(并使用了我的爬虫可用运行之一)或只是查询手动启动的爬虫的结果。

另外我想知道如何获取连接器ID,据我所知,提取器只不过是一个专门的连接器,但当我使用extractor_id作为查询API的连接器ID时,我得到了连接器吗?不存在。

我认为我可以在我的提取器中列出我所拥有的URL的方式是:

https://api.import.io/store/connector/_search?

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...

但我得到的唯一结果是:

  

{“take”:2,“timed_out”:false,“hits”:{       “总数”:0,       “命中”:[],       “max_score”:0}}

尽管如此,即使我得到更完整的回复,我在文档中看到的示例结果也没有提到包含我想从我的import.io帐户获取的URL的任何类型的列表或元素。

我正在使用python来创建此API

1 个答案:

答案 0 :(得分:1)

旧版API不适用于任何非传统连接器,因此您必须使用新的Web Extractor API。不幸的是,没有这方面的文件。

幸运的是,通过一些窥探,您可以找到以下调用列表连接到您的apikey的连接器:

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY

从这里开始,检查每个匹配并验证_type属性是否设置为EXTRACTOR。这将使您能够访问与提取器关联的GUID以及您在创建提取器时为其选择的名称。

然后,您可以执行以下操作以CSV格式从提取器下载最新的运行:

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY

这可以在每个Web Extractor的 Integrations 选项卡中找到。那里还有其他查询。

希望这有帮助。