如何使HTML文件脱机?

时间:2010-11-16 13:49:54

标签: html html-parsing

我有一组html文件,我是使用wget从网站收集的。每个文件名的格式为details.php?id=100419&cid=13%0D,其中id和cid各不相同。部分html文件包含亚洲语言的文章(Unicode文本)。我的目的是仅提取亚洲语言文本。使用命令行浏览器转储渲染的html是我想到的第一步。它将消除一些褶边。

问题是,我无法将渲染的html转储到文件中(例如,使用w3m -dump)。只有将浏览器(在命令行中)指向正确形成的URL:http://<blah-blah>/<filename>,转储才有效。但这是我必须花时间再次从网上下载文件的方式。我如何解决这个问题,我可以使用哪些其他工具?

w3m -dump <filename>抱怨说: w3m:无法加载details.php?id = 100419&amp; cid = 13%0D。

file <filname>显示: details.php?id = 100419&amp; cid = 13%0D:非ISO扩展-ASCII HTML文档文本,包含很长的行,带有CRLF,CR,LF,NEL行终止符

0 个答案:

没有答案