Question

我必须解析一个大的HTML文件，我只对一小部分（一个表）感兴趣。所以我考虑使用XSLT来简化/转换HTML，使其更容易处理。

我遇到的问题是找不到我的桌子。所以我不知道是否可以使用XSL样式表解析HTML。

顺便说一句，HTML文件具有这种外观（原理图，缺少标签）：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html id="ctl00_htmlDocumento" xmlns="http://www.w3.org/1999/xhtml" lang="es-ES" xml:lang="es-ES">
<div> some content </div>
<div class="NON_IMPORTANT"></div>
<div class="IMPORTANT_FATHER>
    <div class="IMPORTANT">
        <table>
            HERE IS THE DATA IM LOOKING FOR
        </table>
    </div>
</div>

根据要求，这是我的xsl

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:template match="tbody">
        tbody found, lets process it
    <xsl:for-each select="tr">
        new tf found, lets process it
    </xsl:for-each>
    </xsl:template>

</xsl:stylesheet>

完整的HTML非常大，所以我不知道如何在这里展示它...我已经在Oxygen上测试了有效的文档，它说它有效。

提前致谢。 Gonso

Answer 1

您未在match属性中正确使用XPath。您需要xmlns:xhtml="http://www.w3.org/1999/xhtml"元素中的xsl:stylesheet属性，然后您需要在XPath表达式中使用xhtml:前缀（您需要一个前缀; XPath不遵循默认名称空间）

在此之后，你仍然会遇到它将处理其他一切的问题。我不知道是否有更好的解决方案，但我认为你需要在tbody元素的路径上明确处理事情，比如

<xsl:template match="xhtml:html">
  <xsl:apply-templates select="xhtml:body"/>
</xsl:template>

和body相同的事情，依此类推，直到你进入tbody匹配。

XPath还支持比上述特定子项更复杂的匹配。例如，匹配第三个子div标记可以使用

完成

<xsl:template match="xhtml:div[3]">

并使用

匹配具有特定属性的元素

<xsl:template match="xhtml:div[@class='IMPORTANT']">

此处[]包含了一个附加条件，需要满足该元素才能被视为匹配。普通数字意味着索引匹配并仅获取具有该索引的索引（索引是基于1的），@符号位于属性之前，但您可以在那里拥有任意复杂的XPath，因此您可以匹配你想要的任何子结构。

Answer 2

只要您的XHTML文档格式良好，XML解析器就能够读取它，因此XSLT引擎将能够对其进行转换。

假设，无法在文档中找到元素的最常见原因是：

您的XPath表达式正在相对于您认为它将成为的其他节点执行。这对您的XSLT意味着什么 - 检查您的XSLT匹配模式是否与其模板相关。
您尚未在XPath引擎中定义名称空间URI到前缀的映射。这对您的XSLT意味着什么 - 确保您的XSLT文件中声明了xmlns="http://www.w3.org/1999/xhtml"名称空间，带有或不带前缀。

如果您发布XSLT，我将能够进一步发表评论。

Answer 3

您可以使用XSLT来操作HTML，假设HTML格式正确（因为HTML文档是格式严格的XML文档）。

如果您可以确认这一点，并且您的XSLT无法正常工作，那么您应该提供更完整的HTML和XSLT文档片段，以便我们能够解决这个问题。

我可以使用XSLT解析HTML吗？

3 个答案: