标签: pdf ocr pdftotext
我正在寻找一种通过“文本层”从PDF提取文本和文本位置的方法。 我的目标是显示以提取的文本为图层的PDF,并让用户选择某些行作为感兴趣的区域。
pdftotext仅向我显示行中的文本,而没有位置信息。 我从PDFlib中检查了TET,但是它们没有试用版,而且似乎也没有积极维护这些库。
该程序应可在Linux上运行