html - Bash脚本 - 从1800多个html文件中提取变量

上个月的每一天我都在下载1800个网站。其中一些是活跃的/一些没有。那些活跃的有时间戳，我需要为每个域提取。

我是通过使用此命令

完成的

while read -r domain; do
    timestamp=$(curl -L0 --max-time 10 "$domain" | grep -oP '"timeSincePublish":(\d+)' )
    printf "%s\t%s\n" "$domain" "$timestamp" 
done < url.txt > output.csv

但是我丢失了文件因为我很愚蠢 - 但是我想再次提取时间戳，但是现在要从脱机文件中提取。

我可以编辑此脚本以从文件夹本身进行检查吗？不是来自txt文件？

Bash脚本 - 从1800多个html文件中提取变量

0 个答案: