如何用ruby解析word文档?

时间:2008-12-17 20:11:11

标签: ruby parsing ms-word ms-office

有没有人知道我可以在OS X / Linux上使用的库来解析Word文件并将内容输出为HTML?

我看过win32ole,但据我所知它只适用于Windows,虽然我可能错了。

有什么建议吗?

1 个答案:

答案 0 :(得分:10)

Word文档格式(暂时忽略docx)非常糟糕且不断变化。恕我直言,这就是为什么有那么少(读:零)Ruby库来解析它们。

我建议使用JRuby和一些已建立的Java库来读取doc格式。 Google应该帮助您:http://schmidt.devlib.org/java/libraries-word.html

有一个用于读取MIcrosoft文件格式的Java项目,POI(http://poi.apache.org/),它们确实有Ruby绑定(http://poi.apache.org/poi-ruby.html),但我不确定它们是最新的。在他们的网站上,它说Ruby绑定是针对1.8.2 ...