我想将扩展名为doc / docx / xls / xlsx / pdf的文件转换为HTML文件。有没有办法在Solaris上使用Perl以简单的方式做到这一点?
答案 0 :(得分:2)
我用于处理Microsoft Office文件的perl库非常缺乏,我还没有找到能够很好地处理Office 2007和Office 2010扩展的文件库(请在评论中指出一个)你知道一个!)
如果您有运行Microsoft Office的PC,则可以使用win32ole从unix控制Office应用程序。我以前用Ruby做过: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html
这是一个使用win32 OLE的perl模块: http://metacpan.org/pod/Win32::OLE
我个人不建议使用OLE方法,因为它有很多麻烦(比如你必须让Office在PC上运行才能使unix脚本正常工作,Windows防火墙几乎会随着你的PC更新而随机阻止unix脚本补丁)。
我没试过这个,但这是一个java程序,它将使用OpenOffice和GhostScript为您进行批量转换: http://www.codeproject.com/KB/java/PDFCM.aspx
答案 1 :(得分:1)
作为旁注,有一个名为xpdf的实用程序converts pdf files to text。这已在Solaris上编译,但您必须从源代码编译(您可以从命令行调用该实用程序)。我已经习惯了,这很棒。
更重要的是,有一个converts pdf to html的修改版本。这个我没有测试过,但它可能值得一试。
答案 2 :(得分:1)
for excel to html - >你可以使用exceltohtml
需要以下模块:
use Spreadsheet::ParseExcel;
use File::Find ; use Cwd ;