我想在正确的html文件中找到所有文字。 例如:
<div style="color: red;">text<span>another text</span>another text<img src="some_image"/></div>
我怎么能在java中做到这一点?
答案 0 :(得分:0)
答案 1 :(得分:0)
尝试Apache Tika http://tika.apache.org/0.7/gettingstarted.html
使用Tika for .html的示例:How can I use the HTML parser with Apache Tika in Java to extract all HTML tags?