我有大量2500个域名,我必须每天查看,看看是否有任何内容更新。每个页面的源头都有一个标记
timeSincePublish:123412412
可以跟踪,我需要检查所有域的这个标记,并为每个域提取它。
现在我有了这个命令:
cat url.txt | xargs -n 1 curl -L0 | grep -oP '"timeSincePublish":(\d+)' -
分析来自url.txt
的所有域并提取戳记,但我可以只保存戳记,我想知道如何在csv
或类似的东西中输出域和时间戳。
所以我会:
domain.com - timesincepublished: 133213124
eweqwe.com - timesincepublished: 312316
答案 0 :(得分:1)
你可以做到
while read -r domain; do
timestamp=$(curl -L0 "$domain" | grep -op "timeSincePublish:\k\d+")
printf "%s\t%s\n" "$domain" "$timestamp"
done < url.txt > output.file