使用java中的htmlparser库提取标题标记内容

时间:2013-06-05 06:50:25

标签: java html

在google页面上标记 - <title>Google</title>我正在尝试检索title标签中的文本内容。但我没有得到输出。它显示Build Successfull并将输出抛出为“TITLE”。我需要输出为“谷歌”。 这是我的代码。

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.IsEqualFilter;
import org.htmlparser.tags.MetaTag;
import org.htmlparser.tags.TitleTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class abc {
public static void main(String[] args) {
       Parser parser=new Parser();


       try
       {
           parser.setResource("http://www.google.com");
          TitleTag title=new TitleTag();
          String tagtext=title.getTitle();
          System.out.println(tagtext);


       }

       }catch (ParserException e) {

        }

    }
}

1 个答案:

答案 0 :(得分:0)

在您发布的代码中,解析器与TitleTag之间没有任何关联。

我们的想法是迭代解析器所拥有的节点列表(包括TitleTag节点)。

请参阅java - org.htmlparser.Parser , need to get whats between the h3's