从多页PDF集合中提取页面级ASCII文本?

时间:2013-10-25 06:55:11

标签: sejda

我正在尝试从一系列多页PDF中获取页面级 ASCII 文本。我目前的流程是批量分割所有带有Sejda(一个很棒的工具)的PDF,然后从分割的PDF(在Sejda中作为批处理)中提取文本到相应的文本文件。有没有一种简单的方法可以绕过分裂阶段并直接进入页面级 TXT 文件?我想输入一个多页PDF的集合,并为每个PDF的每个页面输出相应的TXT文件。任何意见或见解将不胜感激。

我的流程

File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc

1 个答案:

答案 0 :(得分:1)

Sejda version 1.0.0.M8有您正在寻找的任务:ExtractTextByPages

命令行中的使用示例:

bin/sejda-console extracttextbypages -f /tmp/file.pdf -o /tmp -e "UTF-8" --pageNumbers 1 3 5