Question

我正在寻找一行GREP或FINDSTR脚本，它将扫描一个包含4列CSV文件的文件夹并仅提取URL并将其输出到文本文件中，每行一个URL。网址格式为＆＃34; http://example.com/＆＃34;我一直在玩这个剧本，但我似乎无法输出任何东西

cat filename | grep http | grep -shoP 'http.*?[" >]' > outfilename

Answer 1

你可以尝试这个：

find BASEDIR -type f -exec grep -oP "\bhttp://[^/]*/" {} \; > OUTFILE

不需要BASEDIR下的文件是CSV文件。

修改

如果您想要完整的网址（不是格式为＆＃39; http://example.com/＆＃39;而是＆＃39; http://example.com/path＆＃39;）并假设CSV分隔符为＆＃ 39 ;;＆＃39;，然后

find BASEDIR -type f -exec grep -oP "\bhttp://[^;]*" {} \; > OUTFILE

需要从CSV文件中提取URL - 仅限GREP或FINDSTR

1 个答案: