import.io:从批量提取中获取数据

时间:2016-02-20 20:17:16

标签: linux bash shell import.io

我在import.io上创建了一个提取器并使用几个URL进行了测试,它正在运行。

也许这是一个简单的问题,但我如何从CLI接收(新鲜)数据?我花了几个小时寻找答案。我阅读了API手册,但没有CURL(shell)方法的例子(我认为对于普通用户来说这很复杂。)

我找到了一个名为bashtractor的工具,它可以工作(有多个URL),但它创建了多个JSON根元素 - >结果是无效的JSON文件。

https://github.com/import-io/bashtractor

1 个答案:

答案 0 :(得分:1)

只需编写一个for循环,将json结果保存到每个文件中。

e.g:

https://github.com/import-io/bashtractor/blob/master/bashtractor.sh 将json保存到$DATA_FILE-$URL而不是$DATA_FILE

USER_GUID=$1
API_KEY=$2
EXTRACTOR_GUID=$3
URL_FILE=$4
DATA_FILE=$5

while read URL
do
    echo -n $URL
    curl -XPOST -H 'Content-Type: application/json' -s -d "{\"input\":{\"webpage/url\":\"$URL\"}}" "https://api.import.io/store/connector/$EXTRACTOR_GUID/_query?_user=$USER_GUID&_apikey=$API_KEY" >> $DATA_FILE-$URL
    sleep 1
    echo " ...done"
done < $URL_FILE