使用bash从html文件中提取文本

时间:2017-01-01 12:50:05

标签: html bash lynx

我有一个脚本:

cd ../data;
dossier=$(ls crawl);

let "compte = 1";

for file in $dossier
do

lynx --dump --nolist $file >> ../data/txt/$compte'.txt';

let "compte = compte + 1"; 
done 

我正在使用lynx从我的所有HTML文件中检索文本,但问题是当我打开我的文本文件时,会写出:

410 GONE

This doesn't exist any more. Try html.com.

我不知道为什么,因为当我在终端和我的crawl文件夹中时,我在每个HTML文件上执行lynx转储并且它正在生成文本文件但是当我想将它与脚本一起使用时我的所有HTML文件并在其上使用lynx,结果不佳。

1 个答案:

答案 0 :(得分:0)

您需要协议和(不确定)路径。例如:

lynx -dump file:///where/my/file/is/file.html