特定的Java HTML解析器

时间:2011-10-27 16:47:35

标签: java html

  

可能重复:
  What are the pros and cons of the leading Java HTML parsers?

您建议使用哪种HTML解析器来解析HTML? 我需要一个功能html解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文字。

我已经尝试过Jericho Html解析器,HtmlCleaner,但它们似乎并不像我需要的那样工作。

提前致谢。

1 个答案:

答案 0 :(得分:2)

我不确定你在问什么; HTML解析器解析HTML - 您从中提取的内容取决于您。我喜欢jsouptagsoup

如果您想要从HTML中提取“正常”内容,您可以查看Apache Tika如何处理HTML。所有HTML的编写方式都不同 - 您必须能够定义“正常”内容,