使用Node.js和CoffeeScript遍历文件中的行

时间:2011-06-11 23:41:54

标签: node.js coffeescript

我正在使用Node.js和CoffeScript迭代文件中的行 以下功能:

each_line_in = (stream, func) ->
    fs.stat stream.path, (err, stats) ->
        previous = []
        stream.on 'data', (d) ->
            start = cur = 0
            for c in d
                cur++
                if c == 10
                    previous.push(d.slice(start, cur))
                    func previous.join('')
                    previous = []
                    start = cur
            previous.push(d.slice(start, cur)) if start != cur

如果没有将整个文件读入,有更好的方法吗? 内存?而且“更好”我的意思是更简洁,内置到Node.js中,更快,或者 更正确。如果我正在编写Python,我会做这样的事情:

def each_line_in(file_obj, func):
    [ func(l) for l in file_obj ]

我看到this question 它使用Peteris Krumin's "lazy" module,但我想完成 这没有添加外部依赖。

2 个答案:

答案 0 :(得分:6)

这是一种相当有效的方法:

eachLineIn = (filePath, func) ->

  blockSize = 4096
  buffer = new Buffer(blockSize)
  fd = fs.openSync filePath, 'r'
  lastLine = ''

  callback = (err, bytesRead) ->
    throw err if err
    if bytesRead is blockSize
      fs.read fd, buffer, 0, blockSize, null, callback

    lines = buffer.toString('utf8', 0, bytesRead).split '\n'
    lines[0] = lastLine + lines[0]
    [completeLines..., lastLine] = lines
    func(line) for line in completeLines
    return

  fs.read fd, buffer, 0, blockSize, 0, callback
  return

您应该在硬件和操作系统上对此进行基准测试,以便为大型文件找到blockSize的最佳值。

请注意,这假定文件行仅由\n除以。如果您不确定文件的用途,则应使用split的正则表达式,例如:

.split(/(\\r\\n)|\\r|\\n/)

答案 1 :(得分:0)

这是一个使用ReadStream的简洁版本,例如: stream = fs.createReadStream(filepath)

for_each_line = (stream, func) ->
  last = ""
  stream.on('data', (chunk) ->
    lines = (last + chunk).split("\n")
    [lines...,last] = lines
    for line in lines
      func(line)
  )
  stream.on('end', () ->
    func(last)
  )

createReadStream的选项可以根据需要设置缓冲区大小和编码。

这会剥离'\ n',但如果需要可以添加回来。它还处理最后一行,但如果文件以'\ n'结尾,那么它将为空。

我对这三个版本的时间安排没有太大区别。