应用错误收集

HTML解析器从正文中提取文本（在java中）

时间：2010-04-16 14:51:53

标签： java html html-parsing

我正在开展这个项目，要求我从网页上获取的文本中执行一些文本操作。现在，实现这一目标的第一步是找到一个解析器，它将提取忽略冗余信息所需的正文。我不知道如何做到这一点，因为我对编程非常新。我真的很感激我能得到的任何帮助。提前致谢

2 个答案:

答案 0 :(得分：3)

我发现这个html解析器非常有用。它还提供了一个示例示例。 http://jericho.htmlparser.net/docs/index.html

答案 1 :(得分：1)

我现在正在使用Sourceforge提供的HTMLParser： http://sourceforge.net/projects/htmlparser/

似乎非常简单明了，但由于您声称自己是新手，这里有一个源代码示例： http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm