通过Ruby从MS Word文档中提取信息

时间:2014-03-30 20:33:01

标签: ruby

有没有办法使用Ruby从MS Word文档中提取数据?我只需要知道给定文档的页数。

我找不到这个库。你知道有什么办法吗?

提前感谢。

2 个答案:

答案 0 :(得分:2)

您可以使用yomu gem:

require 'yomu'

data = File.read 'file.docx'
metadata = Yomu.read :metadata, data

puts metadata['Page-Count']

答案 1 :(得分:1)

如果您使用的是Windows,则可以使用win32ole。您可以使用以下命令打开文件:

word = WIN32OLE.new('Word.Application')
word.Visible = true
document = word.Documents.Open('c:\WordDocs\MyWordFile.doc')

而且,根据this回答,您可以获得包含以下内容的页数:

page_count = document.Range.ComputeStatistics(WdStatisticPages)