我正在开展这个项目,要求我从网页上获取的文本中执行一些文本操作。 现在,实现这一目标的第一步是找到一个解析器,它将提取忽略冗余信息所需的正文。我不知道如何做到这一点,因为我对编程非常新。我真的很感激我能得到的任何帮助。 提前致谢
答案 0 :(得分:3)
我发现这个html解析器非常有用。它还提供了一个示例示例。 http://jericho.htmlparser.net/docs/index.html
答案 1 :(得分:1)
我现在正在使用Sourceforge提供的HTMLParser: http://sourceforge.net/projects/htmlparser/
似乎非常简单明了,但由于您声称自己是新手,这里有一个源代码示例: http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm