从java </title>中的网页读取<title>标签时出现问题

时间:2011-05-14 07:10:19

标签: java jtidy

我正在使用jtidy解析器来解析网页。它有效,有点:

InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/article.htm").openStream();
Document doc= new Tidy().parseDOM(in, null);
String titleText=doc.getElementsByTagName("title").item(0).getFirstChild().getNodeValue();

它适用于<title>...</title>,但我传递的网址包含大写字母中的标题标记<TITLE>...</TITLE>。所以它返回null。

如何阅读<TITLE>...</TITLE>&amp; <title>...</title>在一个使用java代码的语句中?请帮帮我。

1 个答案:

答案 0 :(得分:1)

检查是否为null,然后检查大写

String titleText=doc.getElementsByTagName("title").item(0).getFirstChild().getNodeValue();
if (titleText == null) titleText=doc.getElementsByTagName("TITLE").item(0).getFirstChild().getNodeValue();

getElementsByTagName区分大小写,因此这是最简单的选项。