应用错误收集

时间：2012-09-11 11:36:46

标签： java tag-soup jericho-html-parser crawler4j

我正在开发一个需要解析HTML文档的产品。我找了Jericho，TagSoup，Jsoup和Crawl4J。我应该使用哪个解析器来解析HTML，因为我需要在使用quartz的多线程环境中运行此过程？

如果10个线程在内存中运行，那么我需要一个消耗更少内存的API。在jericho中，我在某处读到它是基于文本的搜索API并且消耗更少的内存。我对吗？或者我应该去寻找其他的，为什么？

答案 0 :(得分：2)

测试它们并检查它们的内存占用。如果不了解并测试您要解析的HTML，就很难对内存配置文件进行预测。

FFIW，我在许多不同的系统中使用过Jsoup，我发现它的效果非常好。我从来没有注意到它有任何猖獗的内存问题。

答案 1 :(得分：0)

我正在使用JSoup而且我印象非常深刻。它在解析时很快就被破解了，而且内容的CSS样式模式匹配比XPath更容易维护。

我首先尝试了Validator.nu的解析器，发现它非常缺乏。文档很薄，我无法正确执行在Chrome中运行良好的XPath。