HTML解析器从正文中提取文本(在java中)

时间:2010-04-16 14:51:53

标签: java html html-parsing

我正在开展这个项目,要求我从网页上获取的文本中执行一些文本操作。 现在,实现这一目标的第一步是找到一个解析器,它将提取忽略冗余信息所需的正文。我不知道如何做到这一点,因为我对编程非常新。我真的很感激我能得到的任何帮助。 提前致谢

2 个答案:

答案 0 :(得分:3)

我发现这个html解析器非常有用。它还提供了一个示例示例。 http://jericho.htmlparser.net/docs/index.html

答案 1 :(得分:1)

我现在正在使用Sourceforge提供的HTMLParser: http://sourceforge.net/projects/htmlparser/

似乎非常简单明了,但由于您声称自己是新手,这里有一个源代码示例: http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm