文档格式转换为文本

时间:2012-07-09 11:43:46

标签: java


我正在寻找的是一个文本转换库,可以转换word文件的格式,pdfs

但在文本转换后保留其格式结构,表格结构丢失且文档失真

例如

名称emailid phonenumber在表格中并在

中形成一行 转换后,这些来自单独的行,如

EMAILID
PHONENUMBER

我希望这些名称为emailid phonenumber

目前我正在使用apache tikka,它使用apache poi我怎么能实现这个

我可以逐个元素解析msword文档,如果是,请分享一个例子

问候

拉​​杰特

1 个答案:

答案 0 :(得分:2)

您可以使用APACHE POI和pdf PDF READ

阅读.doc .dox的内容

然后您可以将该内容写入文本文件