是否有用于在linux上搜索msword doc文件的模块?

时间:2011-10-20 12:06:25

标签: linux perl search ms-word

通常我正在使用grep -r --color word /path/dir进行搜索,但这对二进制文件不起作用。所以我想编写一个类似的Perl脚本。因此,我正在搜索一个可以在Linux机器上读取doc文件的模块(也许类似于Spreadsheet :: ParseExcel for ms-word-documents)。

2 个答案:

答案 0 :(得分:3)

有很多单词到文本转换器(如antidoc,wv,catdoc,unoconv ......)。你可以通过他们的输出grep。这也是msysgit对doc文件编目的作用。

答案 1 :(得分:1)

不试图听起来很麻烦,这是使用闭源专有文档的危险。您可能会被使用开发人员提供的工具困住。

对于您的实际问题,您可以执行以下操作:

  1. 打开文件并保存为RTF(富文本)或甚至是纯文本,这应该更易于搜索。
  2. 使用LibreOffice打开(在Oracle接管之前称为OpenOffice强制分叉),这可能允许更多可自定义的搜索(如果有人提供了这样的插件)或者可以用于通过方法1进行转换