XPath主要用于Html或XML或XHTML?

时间:2017-02-21 17:42:36

标签: html xml xpath web-scraping xhtml

我对XPath概念完全陌生,我对XPath有一个非常基本的了解。 我首先开始使用XPath在HTML页面上查找Web元素。

现在,在搜索网络(视频和文字)时,我发现所有XPath教程都与XML(而不是HTML页面)相关。

维基说,

  

XPath(XML Path Language)是一种用于从XML文档中选择节点的查询语言。

这让我很困惑。

  1. XPath是否未用于HTML文档?
  2. 在为HTML,XML,XHTML编写XPath时是否存在任何基本/结构差异?
  3. 请注意,我知道这个问题低于标准,但只是出于我在这里问的完全混淆。

1 个答案:

答案 0 :(得分:2)

你有权混淆。

XPath针对通常假定标记为well-formed的数据模型进行操作。根据定义,XML和XHTML必须格式良好; HTML,不一定。但是,HTML解析器通常可以成功地解析非格式化的标记,本质上是人们接受输入的自由主义精神,转换为适合XPath的数据模型。

因此,您通常也可以将XPath与HTML一起使用。事实上,以这种方式使用XPath是一种常见的网页抓取技术。