Question

您好我正在尝试使用jodconverter 3.0将pdf文件转换为html。生成的html文件包含垃圾字符，意思是转换不成功。有人可以帮我知道是什么发生。

以下是代码段：

OfficeManager officeManager = new DefaultOfficeManagerConfiguration().buildOfficeManager();
officeManager.start();
OfficeDocumentConverter converter = new
OfficeDocumentConverter(officeManager);
converter.convert(inputFile, outputFile);
officeManager.stop();

其中inputFile =“test.pdf”和outputFile =“test.html”已创建使用File = new File（...）;

输出文件中的示例：

%PDF-1.4 %Çì�¢ 5 0 obj <</Length 6 0 R/Filter /FlateDecode>> stream
xœÅ][“#·q.[¢Ì,U’/’,Ë¦sìÄÉ9        ÏxpÇDOVh;NUª,{“<ˆ~X.wIÆ¼./²þF¬#œ##—Æ
13gIFÒ#8#h4€Æ×#4°O7}Çø¦wÿÇÂéÃ£_þÁlî>;zº‘\�#-ç#É†n#ôFIfÇZvsóñÑçG¾ùæ#¿
#ªZ³íó�ì˜Ô½†�#&–#µ½=Rê •ŸîöªS¦g#õ:åÉ•þ6WŒm7éÇŸ¥ÒÏ}        Æ¿ý»ÜàçéçÜÇÇD#3|æ5¡Jï¤G ›dÑQË?ÿ"0e¢pø©ú‡‘Anyñù#Y9H‡#&
…ÿü��½[[ôñÝDáÖ.Šƒ�‘¸•#w3¥##w[\KãwºÛÉ?sÓÀ¬ÑÃöŸÜ#A4´�Ýœ¾###ü<=#`#
À####IÍCùA(#]Ù×#Ë÷Žþ{óh%#Q¬K#A]°þ        À¶#L*##¥4¬ƒLü}þj�##á{SCê
‡¡Ã/"d½—`(# '`d»‡�0~       
ó3.#ï�ÏnÔ˜=Ì›ƒ(#Õ…)Ú½½ãÆtli##l#…9Úþrq#RöN<ð(®
£ž¯ïöCÇ•„ÙïÓˆ®_A#cî#Ÿ=_ät0®;Äé•d¤Á¶äÌ#p=�ÛÒ—Ã¶#»epe_g,#´-éiP=ìÃb#ð¸òb2î
—Ð©«(#Nõ=Úº—²‚% Ã#Ui×�AËÞ#s¶qý:Ã#xø

Answer 1

您无法使用OpenOffice将PDF转换为HTML或其他格式。您可以转换为TO pdf但不转换为FROM。你得到的内容与在记事本中打开PDF的内容相同。

您可以使用iText库来解析PDF文件并使用已解析的文本创建HTML。如果您需要保留原始格式，可能会有点棘手。

也许还要试着看看这个：http://sourceforge.net/projects/pdftohtml/

JODConverter - PDF到HTML转换为垃圾数据

1 个答案: