应用错误收集

我有一组html文件，我是使用wget从网站收集的。每个文件名的格式为details.php?id=100419&cid=13%0D，其中id和cid各不相同。部分html文件包含亚洲语言的文章（Unicode文本）。我的目的是仅提取亚洲语言文本。使用命令行浏览器转储渲染的html是我想到的第一步。它将消除一些褶边。

问题是，我无法将渲染的html转储到文件中（例如，使用w3m -dump）。只有将浏览器（在命令行中）指向正确形成的URL：http://<blah-blah>/<filename>，转储才有效。但这是我必须花时间再次从网上下载文件的方式。我如何解决这个问题，我可以使用哪些其他工具？

w3m -dump <filename>抱怨说： w3m：无法加载details.php？id = 100419＆amp; cid = 13％0D。

file <filname>显示： details.php？id = 100419＆amp; cid = 13％0D：非ISO扩展-ASCII HTML文档文本，包含很长的行，带有CRLF，CR，LF，NEL行终止符

如何使HTML文件脱机？

0 个答案: