Question

我有大量2500个域名，我必须每天查看，看看是否有任何内容更新。每个页面的源头都有一个标记

timeSincePublish:123412412

可以跟踪，我需要检查所有域的这个标记，并为每个域提取它。

现在我有了这个命令：

cat url.txt | xargs -n 1 curl -L0 | grep -oP '"timeSincePublish":(\d+)' -

分析来自url.txt的所有域并提取戳记，但我可以只保存戳记，我想知道如何在csv或类似的东西中输出域和时间戳。

所以我会：

domain.com - timesincepublished: 133213124
eweqwe.com - timesincepublished: 312316

Answer 1

你可以做到

while read -r domain; do
    timestamp=$(curl -L0 "$domain" | grep -op "timeSincePublish:\k\d+")
    printf "%s\t%s\n" "$domain" "$timestamp"
done < url.txt > output.file

Bash脚本批量从html中提取内容并分离到每个域

1 个答案: