我正在将Marathi数据从PDF转换为excel或word,但它没有获得正确的格式。 我已经从PDF中复制了一些数据并粘贴在word文档中,但是没有获得正确的格式。 例如这条线是PDF格式的प्रविणसुधाकरशिरवाडकर 但是,当我复制并粘贴时,它已经得到了 -प्रववर्सुधाकरशिरवाडकर 我该怎么办? 有人请帮帮我。
提前谢谢
答案 0 :(得分:0)
检查PDF中的字体并尝试将其提供给word文档。
答案 1 :(得分:0)
我认为您没有PDF中使用的特定字体
在Adobe Reader中 - - 文件菜单>属性> “字体”选项卡为您提供文档中使用的所有字体的列表。
答案 2 :(得分:0)
PDF存储unicode devnagri文本的方式似乎存在问题。尝试这种替代路线:将PDF转换为图像。可以使用在线工具或下载,或者如果在linux上使用终端中的这个命令:
for f in *.pdf; do convert -density 200 "$f" "${f}_200dpi.jpg"; done
根据需要将密度从200更改为其他密度。应将文档中的每个页面转换为图像文件。对于Windows工具,请尝试https://www.pdfill.com/pdf_tools_free.html
然后,转到http://www.i2ocr.com/free-online-hindi-ocr,上传图片并进行转换。它使用OCR(光学字符识别)。