在Ruby IO.popen中运行外部程序:救援无法正常工作

时间:2015-05-04 09:28:58

标签: ruby popen apache-tika

我正在使用Tika jar从Microsoft Word doc文件中提取元数据,但是在Tika遇到问题的情况下,我的救援没有捕获错误,而是脚本退出。我在Windows 7上使用MRI Ruby 1.9.3 我可以调整doc文件,但我想避免将来文件出现此问题。 如何捕获此错误?

JARPATH = "jar/tika-app-1.6.jar"

def metadata
    return @metadata if defined? @metadata
    switch = '-m -j'
    begin
      command = %Q{java -Djava.awt.headless=true -jar #{JARPATH} #{switch} "#{@path}"}
      output = IO.popen(command+" 2>&1") do |io|
        io.read
      end
      if output.respond_to?(:to_str)
        @metadata = JSON.parse(output)
      else
        @metadata = nil
      end
    rescue => e
      puts e
      puts e.backtrace
    end
  end

这是我得到的输出

c:/Ruby193/lib/ruby/gems/1.9.1/gems/json-1.8.2/lib/json/common.rb:155:in `parse': 757: unexpected token at 'Exception in thread "main" org.apache.tika.exception.TikaException: TIKA-198: Illegal IOExce
ption from org.apache.tika.parser.microsoft.OfficeParser@1006d75 (JSON::ParserError)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:250)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:121)
        at org.apache.tika.cli.TikaCLI$OutputType.process(TikaCLI.java:143)
        at org.apache.tika.cli.TikaCLI.process(TikaCLI.java:422)
        at org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)
Caused by: java.io.IOException: Invalid header signature; read 0x04090000002DA5DB, expected 0xE11AB1A1E011CFD0 - Your file appears not to be a valid OLE2 document
        at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:140)
        at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:115)
        at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:204)
        at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:163)
        at org.apache.tika.parser.microsoft.OfficeParser.parse(OfficeParser.java:162)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
        ... 5 more
'
        from c:/Ruby193/lib/ruby/gems/1.9.1/gems/json-1.8.2/lib/json/common.rb:155:in `parse'
        from C:/Users/.../tika.rb:37:in `metadata'
        from C:/Users/.../index_helpers.rb:55:in `index_doc'
        from index.rb:39:in `block in <main>'
        from index.rb:20:in `each'
        from index.rb:20:in `each_with_index'
        from index.rb:20:in `<main>'

1 个答案:

答案 0 :(得分:2)

在致电IO.popen之后,您将子计划的输出传递给JSON.parse,无论其是否有效。您看到的异常是json解析器尝试解析Java异常方法,因为您使用2>&1重定向stderr而捕获该方法。

在继续之前,您需要检查子进程是否已成功完成。最简单的方法可能是在调用$?之后使用popen特殊变量,该变量指示上次执行的子进程的状态。此变量是Process::Status的实例。你可以这样做:

output = IO.popen(command+" 2>&1") do |io|
  io.read
end

unless $?.success?
  # Handle the error however you feel is best, e.g.
  puts "Tika had an error, the message was:\n#{output}"
  raise "Tika error"
end

要获得更多控制权,您可以查看标准库中的Open3 module。由于Tika是一个Java程序,另一种可能性是研究使用JRuby并直接调用它。