使用xpath从HTML文件中提取<title>的最安全的方法是什么?</title>

时间:2010-08-18 01:20:37

标签: html xpath

这是我当前的xpath代码"/html/head/title"

但是你知道,在现实世界的html环​​境中,代码格式通常会被破坏,例如缺少<html>标记可能会导致异常。那么,我想知道是否有一种安全的方式来提取<title>标签? (类似于getElementByTagName)

5 个答案:

答案 0 :(得分:6)

或许

"//title"

答案 1 :(得分:3)

由于html标记的不规则性,您应该使用html解析库。您没有指定平台或语言,但有一些open source libraries out there.

答案 2 :(得分:2)

实际上/html/head/title应该可以正常工作,即使是在格式错误的加价时也是如此,假设:

  • 有一个标题元素;
  • 您的HTML解析器的行为与浏览器解析器的行为相同;
  • 您的HTML解析器将HTML元素放入null命名空间。

您必须考虑到无效HTML中存在多个标题元素的可能性,因此/html/head/title[1]可能会更好。

答案 3 :(得分:1)

如果你可以使用javascript,你可以这样做:

document.title

答案 4 :(得分:0)

如果你有一些XML解析器可以解析的东西(大多数HTML不是这种情况,但需要使用XPath),那么你可以使用//title来获取元素。