XSLT:获取或匹配base64编码数据的哈希值

时间:2009-11-06 02:03:44

标签: xslt hash image-manipulation md5 evernote

我需要找到一种方法来找到一种方法来查找XML节点 // note / resource / data 中base64编码数据的哈希值,或者以某种方式将其与哈希值匹配在节点 // note / content / en-note // en-media @hash

请参阅下面的完整XML文件

请使用XSLT

建议{get | match} 的方法
4aaafc3e14314027bb1d89cf7d59a06c

{from | with}

R0lGODlhEAAQAPMAMcDAwP/crv/erbigfVdLOyslHQAAAAECAwECAwECAwECAwECAwECAwECAwEC
AwECAyH/C01TT0ZGSUNFOS4wGAAAAAxtc09QTVNPRkZJQ0U5LjAHgfNAGQAh/wtNU09GRklDRTku
MBUAAAAJcEhZcwAACxMAAAsTAQCanBgAIf8LTVNPRkZJQ0U5LjATAAAAB3RJTUUH1AkWBTYSQXe8
fQAh+QQBAAAAACwAAAAAEAAQAAADSQhgpv7OlDGYstCIMqsZAXYJJEdRQRWRrHk2I9t28CLfX63d
ZEXovJ7htwr6dIQB7/hgJGXMzFApOBYgl6n1il0Mv5xuhBEGJAAAOw==

此示例XML文件显然已经过修整,以简洁/简洁。实际可能包含>每个音符1个图像,因此需要获得/匹配哈希值。

XML文件:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE en-export SYSTEM "http://xml.evernote.com/pub/evernote-export.dtd">
<en-export export-date="20091029T063411Z" application="Evernote/Windows" version="3.0">

<note>
    <title>A title here</title>
    <content><![CDATA[
        <?xml version="1.0" encoding="UTF-8"?>
        <!DOCTYPE en-note SYSTEM "http://xml.evernote.com/pub/enml.dtd">
        <en-note bgcolor="#FFFFFF">
            <p>Some text here (followed by the picture)
            <p><en-media hash="4aaafc3e14314027bb1d89cf7d59a06c" type="image/gif" border="0" width="16" height="16" alt="A picture"/></p>
            <p>Some more text here (preceded by the picture)
        </en-note>
    ]]></content>
    <created>20090925T063154Z</created>
    <note-attributes>
        <author/>
    </note-attributes>
    <resource>
        <data encoding="base64">
R0lGODlhEAAQAPMAMcDAwP/crv/erbigfVdLOyslHQAAAAECAwECAwECAwECAwECAwECAwECAwEC
AwECAyH/C01TT0ZGSUNFOS4wGAAAAAxtc09QTVNPRkZJQ0U5LjAHgfNAGQAh/wtNU09GRklDRTku
MBUAAAAJcEhZcwAACxMAAAsTAQCanBgAIf8LTVNPRkZJQ0U5LjATAAAAB3RJTUUH1AkWBTYSQXe8
fQAh+QQBAAAAACwAAAAAEAAQAAADSQhgpv7OlDGYstCIMqsZAXYJJEdRQRWRrHk2I9t28CLfX63d
ZEXovJ7htwr6dIQB7/hgJGXMzFApOBYgl6n1il0Mv5xuhBEGJAAAOw==
        </data>
        <mime>image/gif</mime>
        <resource-attributes>
            <file-name>clip_image001.gif</file-name>
        </resource-attributes>
    </resource>
</note>

</en-export>

实施解决方案

使用Jackem建议的解决方案的概念。主要区别在于我避免创建自己的Java类(并创建额外的依赖项)。我在XSLT中进行处理,因为它很直接,仅引用基本Java库附带的外部依赖项。
Jackem的解决方案是更正确因为它在一些哈希值中没有失去前导零,但是我发现使用li'l基本hackery在其他地方处理它更容易。

<xsl:stylesheet version="2.0" 
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    ...
    xmlns:md5="java.security.MessageDigest"
    xmlns:bigint="java.math.BigInteger"
    exclude-result-prefixes="md5 bigint">
...
<xsl:for-each select="resource">
    <xsl:variable name="md5inst" select="md5:getInstance('MD5')" />
    <xsl:value-of select="md5:update($md5inst, $b64bin)" />
    <xsl:variable name="imgmd5bytes" select="md5:digest($md5inst)" />
    <xsl:variable name="imgmd5bigint" select="bigint:new(1, $imgmd5bytes)" />
    <xsl:variable name="imgmd5str" select="bigint:toString($imgmd5bigint, 16)" />
    <!-- NOTE: $imgmd5str loses the leading zero from imgmd5bytes (if there is one) -->
</xsl:for-each>
...

P.S。有关base64-->image file转化

的实施情况,请参阅sibling question

<小时/> 这个问题是another question I have asked previously的一个子问题。

4 个答案:

答案 0 :(得分:4)

关于在XSLT中执行base64解码的相关问题,您有accepted an answer使用Saxon和Java扩展。所以我假设你可以使用它们。

在这种情况下,您可以使用Java创建扩展来计算MD5总和:

package com.stackoverflow.q1684963;

import java.math.BigInteger;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;

public class MD5Sum {
    public static String calc(byte[] data) throws NoSuchAlgorithmException {
        MessageDigest md5 = MessageDigest.getInstance("MD5");
        byte[] digest = md5.digest(data);
        BigInteger digestValue = new BigInteger(1, digest);
        return String.format("%032x", digestValue);
    } 
}

在您使用Saxon运行的XSLT 2.0样式表中,您可以调用该扩展名。假设您已经在变量saxon:base64Binary-to-octets中拥有base64解码数据(例如,来自链接答案中的扩展函数data):

<xsl:value-of xmlns:md5sum="com.stackoverflow.q1684963.MD5Sum"
              select="md5sum:calc($data)"/>

答案 1 :(得分:1)

  • 下载一些免费软件Base64解码器,如this one或使用网络上的一些源代码
  • 输出文件是some_file.gif,268个字节,文件夹图标
  • 使用md5sum生成该文件的MD5校验和,或者再次使用网络上的一些源代码生成

为我输出:

4aaafc3e14314027bb1d89cf7d59a06c

这就是你想要的,不是吗? 在XSLT中完成所有这些操作将会很棘手(如果你不是不可能的,如果你问我,绝对不值得付出努力),但至少你现在已经获得了这个哈希是在GIF文件上使用MD5创建的信息。

答案 2 :(得分:1)

4aaaf...是解码base64编码数据时获得的二进制数据的MD5。我认为除了解码<data>元素的内容并通过MD5实现运行它之外别无选择,这显然超出了XSL转换的范围。据推测,XSLT的结果将由其他一些代码处理,可以提取和验证图像。

答案 3 :(得分:0)

这个怎么样(将commons-codec添加到你的类路径中):

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  xmlns:digest="org.apache.commons.codec.digest.DigestUtils">
  [...]
  <xsl:value-of select="digest:md5Hex('hello, world!')"/>
</xsl:stylesheet>