我在html agility包的帮助下解析html文件,从html文件中提取表数据。但是有一些html文件没有结束标签是可选的,或者没有起始标签也是可选的。所以html agility pack不能正确解析那个html页面。如果我在记事本++中打开那个html文件的内容然后使用选项TestFX-->TestFX HTML Tidy-->TiDy clean document
并使内容整洁如此。现在这个文件如果我使用html敏捷包进行解析,那么它会正确解析它。
使用记事本++使html页面整洁是最佳选择。
所以我不知道,但是用户不能这样做,首先他/她用notepad ++让页面整洁,然后继续。那我该怎么办?
编辑我已经使用了html tidy pack,但在某些情况下,有一个文件已整理,但未解析但是如果我在notepad ++中使这个页面整洁,那么它就会被解析。
答案 0 :(得分:4)
我认为Notepad ++正在使用HtmlTidy库,您也可以。主页是here。
或许你可以使用像HrmlTidy online
这样的服务编辑:你似乎想要使用notepad ++(在HtmlTidy之上)。 NP ++有一组有限的command options,因此加载文件不会成为问题。但我找不到任何接口的参考来完成你需要的其余部分:整理HTML并保存结果。
答案 1 :(得分:2)
答案 2 :(得分:0)
HTML Tidy也可单独使用,仅用作Notepad ++中的插件。您可能希望直接在您的应用中使用它。看看http://tidy.sourceforge.net/。可以使用多种语言的实现。