我是Rails的新手,但我正在开发一个Web应用程序,它需要从大型文本文件数据库中获取文本并在html中显示文本。这些文件位于.doc,.docx,.wps和.pages中,目前只是坐在硬盘上。在.wps和.pages中有足够少的文件,我可以手动将它们转换为.doc,但问题仍然存在:我如何获取.doc或.docx文件中的文本以便我可以保存它进入sqlite数据库供以后使用?
谢谢!
答案 0 :(得分:4)
看看Yomu。它是一个宝石,充当Apache TIKA的包装器,它支持多种文档格式,包括以下内容:
答案 1 :(得分:0)
这是一个漫长的迂回方式,但是开放式办公室可以转换文件,并且有一些编程方式:http://railstech.com/2010/08/convert-open-office-document-to-another-open-office-format/
这可能不是最好的方式,但也许它会润滑车轮。