好的,所以我一直在利用HTML整洁将常规HTML网页转换为适合解析的XHTML。问题是我在firefox中保存的测试页面显然有一些html在保存期间有点被firefox预清理,调用此文件F. Html整理在文件F上正常工作,但是在通过.NET写入文件的原始数据上失败(文件N )。 Html整洁抱怨表单标签与表标签混合在一起。 Html不是我的,所以我不能只修复源代码。
如何清理文件N,以便可以通过Html整理?有没有一种标准的方法可以连接到Firefox(完全没有使用鼠标或键盘的程序)或其他工具将对html应用额外的修复?
答案 0 :(得分:1)
我一直在使用HTML整洁,但后来发现我从TagSoup获得了更好的结果。
它可以用作JAXP解析器,即时转换非格式良好的HTML。我通常让它解析Saxon XQuery转换的输入。
但它也可以用作独立实用程序,作为可执行jar。
答案 1 :(得分:0)
我在C#中使用SendKeys并从user32.dll导入函数,将Firefox启动到我想要的网站(file:/// myfilepathhere /)后将其设置为活动窗口。
SendKeys似乎需要运行一个窗口程序,所以我还添加了另一个可执行文件,它在form_load()方法中执行操作。
使用alt + f,下载六次,输入,等待一下,输入完整路径文件名,输入(两次)然后杀死firefox,我能够自动执行firefox清理某些html的能力。