Question

我正在编写脚本来制作我的图片数据库。我有一个有效的脚本。它通过一个包含5,670个文件的文件夹，在9分24秒内总计13.08 GB的数据。然后我尝试在更新，更大的照片上执行似乎急剧减少。在20分钟内，只计算了一个文件夹中三个小预览文件的哈希值，共有431个文件，共计7.58 GB。

我做错了什么？

var fs = require('fs')
var crypto = require('crypto')
var util = require('util')
var p = require('path')
var sqlite3 = require('sqlite3').verbose()
var db = new sqlite3.Database('./sqlite.db')
const hash_algorithm = 'sha256'

var fileCount = 0

function getFiles(directory) {
    fs.readdir(directory, function(err, files) {
        for (var i in files) {
            var filepath = directory + '/' + files[i]
            fileStat(filepath)
        }
    })
}

function fileStat(filepath) {
    fs.stat(filepath, function(err, stats) {
        if (stats.isDirectory()) {
            getFiles(filepath)
        } else {
            computeHash(filepath, hash_algorithm, function(err, hash) {
                if (err) {
                    throw err
                }
                insertStat(filepath, hash, stats.size)
            })
        }
    })
}

function computeHash(filepath, algorithm, callback) {
    var hash = crypto.createHash(algorithm)
    var rs = fs.createReadStream(filepath)

    rs.on('open', function() {})

    rs.on('error', function(err) {
        throw err
    })

    rs.on('data', function(chunk) {
        hash.update(chunk)
    })

    rs.on('end', function() {
        hash = hash.digest('hex')
        return callback(null, hash)
    })
}

function getExif(filepath, callback) {

}

function insertStat(filepath, hash, size) {
    var sql = "INSERT INTO files VALUES ($filename, $path, $hash, $size)"
    var filename = filepath.split('/')
    filename = filename[filename.length - 1]
    db.run(sql, {$filename: filename, $path: filepath, $hash: hash, $size: size})
    if (verbose) console.log('%s: %s', ++fileCount, filepath)
}

db.serialize(function() {
    db.run('CREATE TABLE files (filename text, path text, hash text, size integer)')
})

var verbose = true
var path = process.argv[2] || '.'
path = p.resolve(path)

if (verbose) console.log('path: %s', path)
getFiles(path)

Answer 1

您的所有流程都是异步的。虽然这是javascript中的好习惯，但您应该控制内存消耗：

您开始使用fs.stat异步打开文件。这意味着你的所有文件。
然后使用缓冲区将它们加载到内存中，但是在完全加载on('end',..)之前，您无法开始处理它们。这意味着您的所有文件都在竞争中完全加载到您的RAM中。

知道了吗？你的内存使用率是100％，你必须希望文件被完全加载和处理以释放一些内存用于另一个。那就是你做错了。

因此，您需要重新控制内存使用量。理想情况下，您应该控制一次处理多少文件。作为快速解决方案，我建议您将其与fs.statSync同步。

附注

您的流程还涉及数据库。这是通常的表现怀疑。您的代码必须记录任何db错误。在这里，我看到没有潜在的死锁或全扫描。所以不用担心。只需确保在开始插入之前创建了表files。

永远不要使用for..in循环到数组中。请改用array.forEach()。

请在代码中使用半列;。是的，JavaScript大部分时间都可以不用，但它可以避免你的奇怪错误，并减轻翻译工作。

nodejs中大文件的校验和

1 个答案: