Pdf到txt的转换

时间:2018-06-04 09:26:04

标签: pdf tabular apache-tika

我有pdfs形式的数据,我想将其转换为文本。我想删除图像,页眉和页脚,而不是仅以多行表的形式保留数据,请您建议转换它的最佳方法?我尝试了tabula和apache tika,但结果并不理想。

2 个答案:

答案 0 :(得分:1)

您可能知道,PDF中的文本按页面上的x / y坐标排列。标题不会像MSWord,HTML等一样存储/识别。

很高兴听到您尝试过tabula:https://github.com/tabulapdf/tabula。对不起它对你不起作用。

如果您正在处理期刊文章,那么您可能会对运行https://wiki.apache.org/tika/GrobidJournalParser

感到满意

要按地点提取文字,请参阅:https://stackoverflow.com/a/35299074

答案 1 :(得分:0)

http://pdftotext.com/ 这可行,但可能不是你寻找的方式