可能重复:
What are the pros and cons of the leading Java HTML parsers?
您建议使用哪种HTML解析器来解析HTML? 我需要一个功能html解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文字。
我已经尝试过Jericho Html解析器,HtmlCleaner,但它们似乎并不像我需要的那样工作。
提前致谢。
答案 0 :(得分:2)
我不确定你在问什么; HTML解析器解析HTML - 您从中提取的内容取决于您。我喜欢jsoup和tagsoup。
如果您想要从HTML中提取“正常”内容,您可以查看Apache Tika如何处理HTML。所有HTML的编写方式都不同 - 您必须能够定义“正常”内容,
。