我正在使用Tika jar从Microsoft Word doc文件中提取元数据,但是在Tika遇到问题的情况下,我的救援没有捕获错误,而是脚本退出。我在Windows 7上使用MRI Ruby 1.9.3 我可以调整doc文件,但我想避免将来文件出现此问题。 如何捕获此错误?
JARPATH = "jar/tika-app-1.6.jar"
def metadata
return @metadata if defined? @metadata
switch = '-m -j'
begin
command = %Q{java -Djava.awt.headless=true -jar #{JARPATH} #{switch} "#{@path}"}
output = IO.popen(command+" 2>&1") do |io|
io.read
end
if output.respond_to?(:to_str)
@metadata = JSON.parse(output)
else
@metadata = nil
end
rescue => e
puts e
puts e.backtrace
end
end
这是我得到的输出
c:/Ruby193/lib/ruby/gems/1.9.1/gems/json-1.8.2/lib/json/common.rb:155:in `parse': 757: unexpected token at 'Exception in thread "main" org.apache.tika.exception.TikaException: TIKA-198: Illegal IOExce
ption from org.apache.tika.parser.microsoft.OfficeParser@1006d75 (JSON::ParserError)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:250)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:121)
at org.apache.tika.cli.TikaCLI$OutputType.process(TikaCLI.java:143)
at org.apache.tika.cli.TikaCLI.process(TikaCLI.java:422)
at org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)
Caused by: java.io.IOException: Invalid header signature; read 0x04090000002DA5DB, expected 0xE11AB1A1E011CFD0 - Your file appears not to be a valid OLE2 document
at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:140)
at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:115)
at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:204)
at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:163)
at org.apache.tika.parser.microsoft.OfficeParser.parse(OfficeParser.java:162)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
... 5 more
'
from c:/Ruby193/lib/ruby/gems/1.9.1/gems/json-1.8.2/lib/json/common.rb:155:in `parse'
from C:/Users/.../tika.rb:37:in `metadata'
from C:/Users/.../index_helpers.rb:55:in `index_doc'
from index.rb:39:in `block in <main>'
from index.rb:20:in `each'
from index.rb:20:in `each_with_index'
from index.rb:20:in `<main>'
答案 0 :(得分:2)
在致电IO.popen
之后,您将子计划的输出传递给JSON.parse
,无论其是否有效。您看到的异常是json解析器尝试解析Java异常方法,因为您使用2>&1
重定向stderr而捕获该方法。
在继续之前,您需要检查子进程是否已成功完成。最简单的方法可能是在调用$?
之后使用popen
特殊变量,该变量指示上次执行的子进程的状态。此变量是Process::Status
的实例。你可以这样做:
output = IO.popen(command+" 2>&1") do |io|
io.read
end
unless $?.success?
# Handle the error however you feel is best, e.g.
puts "Tika had an error, the message was:\n#{output}"
raise "Tika error"
end
要获得更多控制权,您可以查看标准库中的Open3
module。由于Tika是一个Java程序,另一种可能性是研究使用JRuby并直接调用它。