我正在尝试使用以下命令将pdf文件转换为纯文本文件
soffice --headless --convert-to txt xyz.pdf --outdir ~/
但转换后的文件不包含文本,而是包含一堆未经识别的字符。以下是它创建的一些文字
PK^C^D^T^@^@^H^@^@Ås<89>A<85>l9<8a>.^@^@^@.^@^@^@^H^@^@^@mimetypeapplication/vnd.oasis.opendocument.spreadsheetPK^C^D^T^@^@^H^@^@Ås<89>A4éæSq^B^@^@q^B^@^@^H^@^@^@meta.xml<?xml version="1.0" encoding="UTF-8"?>
<office:document-meta xmlns:office="urn:oasis:names:tc:opendocument:xmlns:office:1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:meta="urn:oasis:names:tc:opendocument:xmlns:meta:1.0" xmlns:ooo="http://openoffice.org/2004/office" xmlns:grddl="http://www.w3.org/2003/g/data-view#" office:version="1.2"><office:meta><meta:document-statistic meta:table-count="1" meta:cell-count="2103" meta:object-count="0"/><meta:generator>LibreOffice/3.6$Linux_x86 LibreOffice_project/360m1$Build-102</meta:generator></office:meta></office:document-meta>PK^C^D^T^@^H^H^H^@Ås<89>A^@^@^@^@^@^@^@^@^@^@^@^@^L^@^@^@settings.xmlµWÛRâ@^P}߯ æ]^C¨,¤^@^K±\ÝeÕ"è^Þ&IC¦<9c>L§æBd¿~'^D,^WCFç»...2<97>s:§»ÏLú§<8f>)o,A*<86>b@Z<87>MÒ^@^QaÌÄb@îf^W^G]r:üÔÇù<9c>EàÇ^X<99>^T<84>>P µ]¢^Zv»P~9= F
^_©bÊ^W4^EåëÈÇ^LÄv<9b>ÿ|µ¿&+G^^9^S^O^C<92>h<9d>ù<9e><97>çùa~t<88>ráµz½<9e>·<9e>Ý.<8d>PÌÙâµTåêçT<88>øDTl(<83>Y<93>µ<9b>Íc¯|&<8d>M<90>Ϥi<93>áV<87>íë^Oû^[<82>òç<80>iH^Km^Z<9b>á"´^A±<94>þ<92>Aþ¤^Z©Ú÷ï<9e>{¦XÈa$<81>Î0#ÛI½Êì$^S<9a>^L<9b>}ï%È<9b><80>'0×n<90>^?°X'UÐíæq·Û{7þ%°ER^Y{·Ó9i<9d>T^ST^L^V)y}^RË^A#©¶%ñ<96>lN<90>ÆS 1
如果我尝试将PDF文件转换为HTML或DOC
,则情况相同我做错了什么?
答案 0 :(得分:0)
尝试将“文本”放在“txt”之后。 例如:
libreoffice --invisible --convert-to txt:Text filename.doc
假设“libreoffice”和“soffice”足够相同