我有pdfs形式的数据,我想将其转换为文本。我想删除图像,页眉和页脚,而不是仅以多行表的形式保留数据,请您建议转换它的最佳方法?我尝试了tabula和apache tika,但结果并不理想。
答案 0 :(得分:1)
您可能知道,PDF中的文本按页面上的x / y坐标排列。标题不会像MSWord,HTML等一样存储/识别。
很高兴听到您尝试过tabula:https://github.com/tabulapdf/tabula。对不起它对你不起作用。
如果您正在处理期刊文章,那么您可能会对运行https://wiki.apache.org/tika/GrobidJournalParser
感到满意要按地点提取文字,请参阅:https://stackoverflow.com/a/35299074
答案 1 :(得分:0)
http://pdftotext.com/ 这可行,但可能不是你寻找的方式