应用错误收集

修复html整理无法修复的格式错误的html

时间：2012-05-15 20:35:13

标签： html web-scraping tidy

好的，所以我一直在利用HTML整洁将常规HTML网页转换为适合解析的XHTML。问题是我在firefox中保存的测试页面显然有一些html在保存期间有点被firefox预清理，调用此文件F. Html整理在文件F上正常工作，但是在通过.NET写入文件的原始数据上失败（文件N ）。 Html整洁抱怨表单标签与表标签混合在一起。 Html不是我的，所以我不能只修复源代码。

如何清理文件N，以便可以通过Html整理？有没有一种标准的方法可以连接到Firefox（完全没有使用鼠标或键盘的程序）或其他工具将对html应用额外的修复？

2 个答案:

答案 0 :(得分：1)

我一直在使用HTML整洁，但后来发现我从TagSoup获得了更好的结果。

它可以用作JAXP解析器，即时转换非格式良好的HTML。我通常让它解析Saxon XQuery转换的输入。

但它也可以用作独立实用程序，作为可执行jar。

答案 1 :(得分：0)

我在C＃中使用SendKeys并从user32.dll导入函数，将Firefox启动到我想要的网站（file：/// myfilepathhere /）后将其设置为活动窗口。

SendKeys似乎需要运行一个窗口程序，所以我还添加了另一个可执行文件，它在form_load（）方法中执行操作。

使用alt + f，下载六次，输入，等待一下，输入完整路径文件名，输入（两次）然后杀死firefox，我能够自动执行firefox清理某些html的能力。