Question

这是我当前的xpath代码"/html/head/title"。

但是你知道，在现实世界的html环境中，代码格式通常会被破坏，例如缺少<html>标记可能会导致异常。那么，我想知道是否有一种安全的方式来提取<title>标签？（类似于getElementByTagName）

Answer 1

或许

"//title"？

Answer 2

由于html标记的不规则性，您应该使用html解析库。您没有指定平台或语言，但有一些open source libraries out there.

Answer 3

实际上/html/head/title应该可以正常工作，即使是在格式错误的加价时也是如此，假设：

您必须考虑到无效HTML中存在多个标题元素的可能性，因此/html/head/title[1]可能会更好。

Answer 4

如果你可以使用javascript，你可以这样做：

document.title

Answer 5

如果你有一些XML解析器可以解析的东西（大多数HTML不是这种情况，但需要使用XPath），那么你可以使用//title来获取元素。