在Ruby on Rails中从各种文档格式中获取文本

时间:2011-05-26 21:03:32

标签: ruby-on-rails ruby rubygems ms-word

我是Rails的新手,但我正在开发一个Web应用程序,它需要从大型文本文件数据库中获取文本并在html中显示文本。这些文件位于.doc,.docx,.wps和.pages中,目前只是坐在硬盘上。在.wps和.pages中有足够少的文件,我可以手动将它们转换为.doc,但问题仍然存在:我如何获取.doc或.docx文件中的文本以便我可以保存它进入sqlite数据库供以后使用?

谢谢!

2 个答案:

答案 0 :(得分:4)

看看Yomu。它是一个宝石,充当Apache TIKA的包装器,它支持多种文档格式,包括以下内容:

  • Microsoft Office OLE 2和Office Open XML格式(.doc,.docx,.xls,.xlsx,.ppt,.pptx)
  • OpenOffice.org OpenDocument格式(.odt,.ods,.odp)
  • Apple iWorks格式
  • 富文本格式(.rtf)
  • 可移植文档格式(.pdf)

答案 1 :(得分:0)

这是一个漫长的迂回方式,但是开放式办公室可以转换文件,并且有一些编程方式:http://railstech.com/2010/08/convert-open-office-document-to-another-open-office-format/

这可能不是最好的方式,但也许它会润滑车轮。