在ruby中解析doc和xls文件

时间:2013-11-11 19:41:21

标签: ruby-on-rails ruby ruby-on-rails-3

在我的rails应用程序中,我需要上传一些doc / xls文件并解析其结构并获取信息。如何从* .doc或* .xls中获取xml格式的数据或我可以阅读和解析的任何其他内容?

3 个答案:

答案 0 :(得分:1)

您可以使用Roo gem解析不同类型的电子表格。它支持:

  • OpenOffice的
  • Excel中
  • Google电子表格
  • Excelx
  • LibreOffice的
  • CSV

根据我的经验,解析.xls文件存在一些问题,但解析.xlsx文件很好。

对于.doc文件,您可以尝试使用msworddoc-extractor gem或尝试其中一个解决方案here

更新:使用* .docx文件 - docxdocx-html

答案 1 :(得分:0)

你见过Nokogiri宝石吗? http://nokogiri.org/

对xml解析非常有用

答案 2 :(得分:0)

电子表格gem非常适合excel和csv文件。 https://github.com/zdavatz/spreadsheet