如何以适当的格式将马拉地语数据从pdf转换为excel

时间:2014-01-07 06:31:22

标签: pdf

我正在将Marathi数据从PDF转换为excel或word,但它没有获得正确的格式。 我已经从PDF中复制了一些数据并粘贴在word文档中,但是没有获得正确的格式。  例如这条线是PDF格式的प्रविणसुधाकरशिरवाडकर  但是,当我复制并粘贴时,它已经得到了  -प्रववर्सुधाकरशिरवाडकर 我该怎么办? 有人请帮帮我。

提前谢谢

3 个答案:

答案 0 :(得分:0)

检查PDF中的字体并尝试将其提供给word文档。

答案 1 :(得分:0)

我认为您没有PDF中使用的特定字体

在Adobe Reader中 - - 文件菜单>属性> “字体”选项卡为您提供文档中使用的所有字体的列表。

答案 2 :(得分:0)

PDF存储unicode devnagri文本的方式似乎存在问题。尝试这种替代路线:将PDF转换为图像。可以使用在线工具或下载,或者如果在linux上使用终端中的这个命令:

for f in *.pdf; do convert -density 200 "$f" "${f}_200dpi.jpg"; done

根据需要将密度从200更改为其他密度。应将文档中的每个页面转换为图像文件。对于Windows工具,请尝试https://www.pdfill.com/pdf_tools_free.html

然后,转到http://www.i2ocr.com/free-online-hindi-ocr,上传图片并进行转换。它使用OCR(光学字符识别)。