Bash脚本批量从html中提取内容并分离到每个域

时间:2017-08-29 13:08:14

标签: bash curl

我有大量2500个域名,我必须每天查看,看看是否有任何内容更新。每个页面的源头都有一个标记

timeSincePublish:123412412 

可以跟踪,我需要检查所有域的这个标记,并为每个域提取它。

现在我有了这个命令:

cat url.txt | xargs -n 1 curl -L0 | grep -oP '"timeSincePublish":(\d+)' -

分析来自url.txt的所有域并提取戳记,但我可以只保存戳记,我想知道如何在csv或类似的东西中输出域和时间戳。

所以我会:

domain.com - timesincepublished: 133213124
eweqwe.com - timesincepublished: 312316

1 个答案:

答案 0 :(得分:1)

你可以做到

while read -r domain; do
    timestamp=$(curl -L0 "$domain" | grep -op "timeSincePublish:\k\d+")
    printf "%s\t%s\n" "$domain" "$timestamp"
done < url.txt > output.file