Bash脚本 - 从1800多个html文件中提取变量

时间:2017-10-04 10:40:48

标签: html bash grep

上个月的每一天我都在下载1800个网站。 其中一些是活跃的/一些没有。 那些活跃的有时间戳,我需要为每个域提取。

我是通过使用此命令

完成的
while read -r domain; do
    timestamp=$(curl -L0 --max-time 10 "$domain" | grep -oP '"timeSincePublish":(\d+)' )
    printf "%s\t%s\n" "$domain" "$timestamp" 
done < url.txt > output.csv

但是我丢失了文件因为我很愚蠢 - 但是我想再次提取时间戳,但是现在要从脱机文件中提取。

我可以编辑此脚本以从文件夹本身进行检查吗?不是来自txt文件?

0 个答案:

没有答案