如何使用javascript计算文件的md5哈希值

时间:2009-04-20 13:32:43

标签: javascript md5

有没有办法在使用Javascript上传到服务器之前计算文件的MD5哈希?

12 个答案:

答案 0 :(得分:86)

虽然MD5算法有JS implementations,但旧浏览器通常无法从本地文件系统中读取文件

我在2009年写过。那么新的浏览器呢?

使用支持FileAPI的浏览器,您*可以*读取文件的内容 - 用户必须使用<input>元素选择它或拖放。截至2013年1月,这里是主流浏览器的堆叠方式:

答案 1 :(得分:26)

我已经创建了一个实现增量md5的库,以便有效地散列大文件。 基本上你以块的形式读取文件(以保持低内存)并以递增方式对其进行散列。 您在自述文件中获得了基本用法和示例。

请注意,您需要HTML5 FileAPI,因此请务必检查它。 测试文件夹中有一个完整的例子。

https://github.com/satazor/SparkMD5

答案 2 :(得分:24)

使用MD5 function of CryptoJSHTML5 FileReader API计算MD5哈希非常简单。以下代码段显示了如何读取二进制数据并从已拖入浏览器的图像计算MD5哈希值:

var holder = document.getElementById('holder');

holder.ondragover = function() {
  return false;
};

holder.ondragend = function() {
  return false;
};

holder.ondrop = function(event) {
  event.preventDefault();

  var file = event.dataTransfer.files[0];
  var reader = new FileReader();

  reader.onload = function(event) {
    var binary = event.target.result;
    var md5 = CryptoJS.MD5(binary).toString();
    console.log(md5);
  };

  reader.readAsBinaryString(file);
};

我建议添加一些CSS来查看Drag&amp;掉落区域:

#holder {
  border: 10px dashed #ccc;
  width: 300px;
  height: 300px;
}

#holder.hover {
  border: 10px dashed #333;
}

关于Drag&amp; amp;可以在此处找到删除功能:File API & FileReader

我在Google Chrome版本32中测试了该示例。

答案 3 :(得分:7)

您需要使用FileAPI。它有最新的FF&amp; amp; Chrome,但不是IE9。 抓住上面建议的任何md5 JS实现。我试过这个并放弃它,因为JS太慢了(大图像文件上的分钟数)。如果有人使用类型化数组重写MD5,可能会重新访问它。

代码看起来像这样:

HTML:     
<input type="file" id="file-dialog" multiple="true" accept="image/*">

JS (w JQuery)

$("#file-dialog").change(function() {
  handleFiles(this.files);
});

function handleFiles(files) {
    for (var i=0; i<files.length; i++) {
        var reader = new FileReader();
        reader.onload = function() {
        var md5 = binl_md5(reader.result, reader.result.length);
            console.log("MD5 is " + md5);
        };
        reader.onerror = function() {
            console.error("Could not read the file");
        };
        reader.readAsBinaryString(files.item(i));
     }
 }

答案 4 :(得分:7)

HTML5 + spark-md5Q

假设您使用的是现代浏览器(支持HTML5文件API),这里是您如何计算大文件的 MD5哈希(它将计算可变块上的哈希值)

function calculateMD5Hash(file, bufferSize) {
  var def = Q.defer();

  var fileReader = new FileReader();
  var fileSlicer = File.prototype.slice || File.prototype.mozSlice || File.prototype.webkitSlice;
  var hashAlgorithm = new SparkMD5();
  var totalParts = Math.ceil(file.size / bufferSize);
  var currentPart = 0;
  var startTime = new Date().getTime();

  fileReader.onload = function(e) {
    currentPart += 1;

    def.notify({
      currentPart: currentPart,
      totalParts: totalParts
    });

    var buffer = e.target.result;
    hashAlgorithm.appendBinary(buffer);

    if (currentPart < totalParts) {
      processNextPart();
      return;
    }

    def.resolve({
      hashResult: hashAlgorithm.end(),
      duration: new Date().getTime() - startTime
    });
  };

  fileReader.onerror = function(e) {
    def.reject(e);
  };

  function processNextPart() {
    var start = currentPart * bufferSize;
    var end = Math.min(start + bufferSize, file.size);
    fileReader.readAsBinaryString(fileSlicer.call(file, start, end));
  }

  processNextPart();
  return def.promise;
}

function calculate() {

  var input = document.getElementById('file');
  if (!input.files.length) {
    return;
  }

  var file = input.files[0];
  var bufferSize = Math.pow(1024, 2) * 10; // 10MB

  calculateMD5Hash(file, bufferSize).then(
    function(result) {
      // Success
      console.log(result);
    },
    function(err) {
      // There was an error,
    },
    function(progress) {
      // We get notified of the progress as it is executed
      console.log(progress.currentPart, 'of', progress.totalParts, 'Total bytes:', progress.currentPart * bufferSize, 'of', progress.totalParts * bufferSize);
    });
}
<script src="https://cdnjs.cloudflare.com/ajax/libs/q.js/1.4.1/q.js"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/spark-md5/2.0.2/spark-md5.min.js"></script>

<div>
  <input type="file" id="file"/>
  <input type="button" onclick="calculate();" value="Calculate" class="btn primary" />
</div>

答案 5 :(得分:4)

  

除了不可能获得   JS中的文件系统访问,我不会   完全放弃任何信任   客户端生成的校验和。所以   在服务器上生成校验和   在任何情况下都是强制性的 - Tomalak   09年4月20日14:05

在大多数情况下,这是无用的。您希望在客户端计算MD5,以便您可以将其与服务器端重新计算的代码进行比较,并确定如果它们不同则上传出错。我需要在处理大型科学数据文件的应用程序中这样做,其中接收未损坏的文件是关键。我的案例很简单,因为用户已经使用他们的数据分析工具计算了MD5,所以我只需要用文本字段向他们询问。

答案 6 :(得分:3)

要获取文件的哈希值,有很多选项。通常问题是获取大文件的哈希真的很慢。

我创建了一个获取文件哈希的小库,文件的开头为64kb,结尾为64kb。

实例:http://marcu87.github.com/hashme/和图书馆:https://github.com/marcu87/hashme

答案 7 :(得分:2)

互联网上有几个脚本用于创建MD5哈希。

来自webtoolkit的那个很好,http://www.webtoolkit.info/javascript-md5.html

虽然,我认为它不会访问本地文件系统,因为访问受限。

答案 8 :(得分:2)

下面的代码片段显示了一个示例,该示例在读取和散列文件时可以存档400 MB / s的吞吐量。

它正在使用名为hash-wasm的库,该库基于WebAssembly,并且比纯js库更快地计算哈希。截至2020年,所有现代浏览器都支持WebAssembly。

const chunkSize = 64 * 1024 * 1024;
const fileReader = new FileReader();
let hasher = null;

function hashChunk(chunk) {
  return new Promise((resolve, reject) => {
    fileReader.onload = async(e) => {
      const view = new Uint8Array(e.target.result);
      hasher.update(view);
      resolve();
    };

    fileReader.readAsArrayBuffer(chunk);
  });
}

const readFile = async(file) => {
  if (hasher) {
    hasher.init();
  } else {
    hasher = await hashwasm.createMD5();
  }

  const chunkNumber = Math.floor(file.size / chunkSize);

  for (let i = 0; i <= chunkNumber; i++) {
    const chunk = file.slice(
      chunkSize * i,
      Math.min(chunkSize * (i + 1), file.size)
    );
    await hashChunk(chunk);
  }

  const hash = hasher.digest();
  return Promise.resolve(hash);
};

const fileSelector = document.getElementById("file-input");
const resultElement = document.getElementById("result");

fileSelector.addEventListener("change", async(event) => {
  const file = event.target.files[0];

  resultElement.innerHTML = "Loading...";
  const start = Date.now();
  const hash = await readFile(file);
  const end = Date.now();
  const duration = end - start;
  const fileSizeMB = file.size / 1024 / 1024;
  const throughput = fileSizeMB / (duration / 1000);
  resultElement.innerHTML = `
    Hash: ${hash}<br>
    Duration: ${duration} ms<br>
    Throughput: ${throughput.toFixed(2)} MB/s
  `;
});
<script src="https://cdn.jsdelivr.net/npm/hash-wasm"></script>
<!-- defines the global `hashwasm` variable -->

<input type="file" id="file-input">
<div id="result"></div>

答案 9 :(得分:0)

使用当前的HTML5应该可以计算二进制文件的md5哈希值,但我认为之前的步骤是将Banary数据BlobBuilder转换为String,我试图这样做:但是没有成功了。

以下是我尝试过的代码:Converting a BlobBuilder to string, in HTML5 Javascript

答案 10 :(得分:0)

希望您现在找到了一个好的解决方案。如果没有,下面的解决方案是基于js-spark-md5

的ES6 Promise实现
import SparkMD5 from 'spark-md5';

// Read in chunks of 2MB
const CHUCK_SIZE = 2097152;

/**
 * Incrementally calculate checksum of a given file based on MD5 algorithm
 */
export const checksum = (file) =>
  new Promise((resolve, reject) => {
    let currentChunk = 0;
    const chunks = Math.ceil(file.size / CHUCK_SIZE);
    const blobSlice =
      File.prototype.slice ||
      File.prototype.mozSlice ||
      File.prototype.webkitSlice;
    const spark = new SparkMD5.ArrayBuffer();
    const fileReader = new FileReader();

    const loadNext = () => {
      const start = currentChunk * CHUCK_SIZE;
      const end =
        start + CHUCK_SIZE >= file.size ? file.size : start + CHUCK_SIZE;

      // Selectively read the file and only store part of it in memory.
      // This allows client-side applications to process huge files without the need for huge memory
      fileReader.readAsArrayBuffer(blobSlice.call(file, start, end));
    };

    fileReader.onload = e => {
      spark.append(e.target.result);
      currentChunk++;

      if (currentChunk < chunks) loadNext();
      else resolve(spark.end());
    };

    fileReader.onerror = () => {
      return reject('Calculating file checksum failed');
    };

    loadNext();
  });

答案 11 :(得分:-1)

我不相信javascript中有一种方法可以访问文件上传的内容。因此,您无法查看文件内容以生成MD5总和。

然而,您可以将文件发送到服务器,服务器然后可以发回MD5总额或发回文件内容..但这是很多工作,可能不值得为您的目的。