MS Word识别标题/字体等?

时间:2010-09-19 05:37:56

标签: java php ruby ms-word

我想阅读一个MS Word文档和识别标题/粗体字/ Underscored字等?有没有办法以编程方式解决这个问题?如果可能的话,我想用Java或PHP或Ruby建议,否则如果有一些元数据也可以告诉我。

2 个答案:

答案 0 :(得分:1)

你有java API可以做到这一点。我建议你看一下Apache POI库。

答案 1 :(得分:1)

这与此有关 What's a good Java API for creating Word documents?

使用Apache POI有一个正在进行中的工作API。

  

HWPF是我们港口的名称   Microsoft Word 97(-2007)文件格式   纯Java。它也提供有限的   只读支持旧的Word 6   和Word 95文件格式。和Word 95文件格式。

     

新Word的HWPF合作伙伴   2007 .docx格式是XWPF。虽然是HWPF   和XWPF提供类似的功能,   没有一个共同的界面   他们两个在这个时候。

http://poi.apache.org/hwpf/quick-guide.html