我正在开发一个需要解析HTML文档的产品。我找了Jericho,TagSoup,Jsoup和Crawl4J。我应该使用哪个解析器来解析HTML,因为我需要在使用quartz的多线程环境中运行此过程?
如果10个线程在内存中运行,那么我需要一个消耗更少内存的API。在jericho中,我在某处读到它是基于文本的搜索API并且消耗更少的内存。我对吗?或者我应该去寻找其他的,为什么?
答案 0 :(得分:2)
测试它们并检查它们的内存占用。如果不了解并测试您要解析的HTML,就很难对内存配置文件进行预测。
FFIW,我在许多不同的系统中使用过Jsoup,我发现它的效果非常好。我从来没有注意到它有任何猖獗的内存问题。
答案 1 :(得分:0)
我正在使用JSoup而且我印象非常深刻。它在解析时很快就被破解了,而且内容的CSS样式模式匹配比XPath更容易维护。
我首先尝试了Validator.nu的解析器,发现它非常缺乏。文档很薄,我无法正确执行在Chrome中运行良好的XPath。
另外,请查看此问题:Which HTML Parser is the best?