如何从Google HTML结果页面中提取链接?

时间:2014-01-06 09:18:58

标签: java html parsing jsoup

我正在阅读包含来自Google搜索结果的HTML代码的文本文件。然后我解析它,我尝试用这段代码提取链接:

FileReader in = new FileReader("A.txt");
BufferedReader p = new BufferedReader(in);
while(p.readLine() != null)
{
  String html = p.readLine();
  Document doc = Jsoup.parse(html);
  Elements Link = doc.select("a[href");
  for(Element element :Link)
  {   
    if(element != null)
    {
       System.out.println(element);
    }
  }
}

但我有很多非链接字符串。如何显示链接,而不是其他任何内容?

1 个答案:

答案 0 :(得分:0)

请使用完整的选择器再试一次,而不仅仅是“a [href”:

Elements links = doc.select("a[href]"); // a with href

请参阅Selector文档获取完整支持 - 尤其是右侧的示例。