Question

我想知道如何从我的import.io提取器获取爬行数据（通过GUI手动输入的URL列表）。 API文档非常稀缺，并且它没有指定我制作的GET请求是否实际启动了爬虫（并使用了我的爬虫可用运行之一）或只是查询手动启动的爬虫的结果。

另外我想知道如何获取连接器ID，据我所知，提取器只不过是一个专门的连接器，但当我使用extractor_id作为查询API的连接器ID时，我得到了连接器吗？不存在。

我认为我可以在我的提取器中列出我所拥有的URL的方式是：

https://api.import.io/store/connector/_search?

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123...

但我得到的唯一结果是：

{“take”：2，“timed_out”：false，“hits”：{ “总数”：0， “命中”：[]， “max_score”：0}}

尽管如此，即使我得到更完整的回复，我在文档中看到的示例结果也没有提到包含我想从我的import.io帐户获取的URL的任何类型的列表或元素。

我正在使用python来创建此API

Answer 1

旧版API不适用于任何非传统连接器，因此您必须使用新的Web Extractor API。不幸的是，没有这方面的文件。

幸运的是，通过一些窥探，您可以找到以下调用列表连接到您的apikey的连接器：

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY

从这里开始，检查每个匹配并验证_type属性是否设置为EXTRACTOR。这将使您能够访问与提取器关联的GUID以及您在创建提取器时为其选择的名称。

然后，您可以执行以下操作以CSV格式从提取器下载最新的运行：

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY

这可以在每个Web Extractor的 Integrations 选项卡中找到。那里还有其他查询。

希望这有帮助。