我有一组html文件,我是使用wget从网站收集的。每个文件名的格式为details.php?id=100419&cid=13%0D,其中id和cid各不相同。部分html文件包含亚洲语言的文章(Unicode文本)。我的目的是仅提取亚洲语言文本。使用命令行浏览器转储渲染的html是我想到的第一步。它将消除一些褶边。
问题是,我无法将渲染的html转储到文件中(例如,使用w3m -dump)。只有将浏览器(在命令行中)指向正确形成的URL:http://<blah-blah>/<filename>
,转储才有效。但这是我必须花时间再次从网上下载文件的方式。我如何解决这个问题,我可以使用哪些其他工具?
w3m -dump <filename>
抱怨说:
w3m:无法加载details.php?id = 100419&amp; cid = 13%0D。
file <filname>
显示:
details.php?id = 100419&amp; cid = 13%0D:非ISO扩展-ASCII HTML文档文本,包含很长的行,带有CRLF,CR,LF,NEL行终止符