应用错误收集

Pdf到txt的转换

时间：2018-06-04 09:26:04

标签： pdf tabular apache-tika

我有pdfs形式的数据，我想将其转换为文本。我想删除图像，页眉和页脚，而不是仅以多行表的形式保留数据，请您建议转换它的最佳方法？我尝试了tabula和apache tika，但结果并不理想。

2 个答案:

答案 0 :(得分：1)

您可能知道，PDF中的文本按页面上的x / y坐标排列。标题不会像MSWord，HTML等一样存储/识别。

很高兴听到您尝试过tabula：https://github.com/tabulapdf/tabula。对不起它对你不起作用。

如果您正在处理期刊文章，那么您可能会对运行https://wiki.apache.org/tika/GrobidJournalParser

感到满意

要按地点提取文字，请参阅：https://stackoverflow.com/a/35299074

答案 1 :(得分：0)

http://pdftotext.com/ 这可行，但可能不是你寻找的方式