我必须解析一个大的HTML文件,我只对一小部分(一个表)感兴趣。 所以我考虑使用XSLT来简化/转换HTML,使其更容易处理。
我遇到的问题是找不到我的桌子。所以我不知道是否可以使用XSL样式表解析HTML。
顺便说一句,HTML文件具有这种外观(原理图,缺少标签):
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html id="ctl00_htmlDocumento" xmlns="http://www.w3.org/1999/xhtml" lang="es-ES" xml:lang="es-ES">
<div> some content </div>
<div class="NON_IMPORTANT"></div>
<div class="IMPORTANT_FATHER>
<div class="IMPORTANT">
<table>
HERE IS THE DATA IM LOOKING FOR
</table>
</div>
</div>
根据要求,这是我的xsl
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:template match="tbody">
tbody found, lets process it
<xsl:for-each select="tr">
new tf found, lets process it
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
完整的HTML非常大,所以我不知道如何在这里展示它...我已经在Oxygen上测试了有效的文档,它说它有效。
提前致谢。 Gonso
答案 0 :(得分:5)
您未在match
属性中正确使用XPath。您需要xmlns:xhtml="http://www.w3.org/1999/xhtml"
元素中的xsl:stylesheet
属性,然后您需要在XPath表达式中使用xhtml:
前缀(您需要一个前缀; XPath不遵循默认名称空间)
在此之后,你仍然会遇到它将处理其他一切的问题。我不知道是否有更好的解决方案,但我认为你需要在tbody
元素的路径上明确处理事情,比如
<xsl:template match="xhtml:html">
<xsl:apply-templates select="xhtml:body"/>
</xsl:template>
和body
相同的事情,依此类推,直到你进入tbody
匹配。
XPath还支持比上述特定子项更复杂的匹配。例如,匹配第三个子div
标记可以使用
<xsl:template match="xhtml:div[3]">
并使用
匹配具有特定属性的元素<xsl:template match="xhtml:div[@class='IMPORTANT']">
此处[]
包含了一个附加条件,需要满足该元素才能被视为匹配。普通数字意味着索引匹配并仅获取具有该索引的索引(索引是基于1的),@
符号位于属性之前,但您可以在那里拥有任意复杂的XPath,因此您可以匹配你想要的任何子结构。
答案 1 :(得分:4)
只要您的XHTML文档格式良好,XML解析器就能够读取它,因此XSLT引擎将能够对其进行转换。
假设,无法在文档中找到元素的最常见原因是:
xmlns="http://www.w3.org/1999/xhtml"
名称空间,带有或不带前缀。如果您发布XSLT,我将能够进一步发表评论。
答案 2 :(得分:2)
您可以使用XSLT来操作HTML,假设HTML格式正确(因为HTML文档是格式严格的XML文档)。
如果您可以确认这一点,并且您的XSLT无法正常工作,那么您应该提供更完整的HTML和XSLT文档片段,以便我们能够解决这个问题。