我正在自动从PDF文件中提取表格数据。我需要使用名为Tabula的开源库。该工具可以选择将列提供给单独的表格PDF数据,如下所示:
-c 80, 250, 380
以上将创建5列; 80,250和380是柱分离器的单位。
有人能告诉我80,250和380是什么单位以及如何确定页面上的水平位置是多少?是否存在可以测量PDF的常用单位?
答案 0 :(得分:1)
在文档中有一节解释了how to grab the coordinates from the tabula app。
在选择所需的区域并单击“预览和导出提取的数据”后,坐标也会显示在浏览器中“开发人员工具”的“控制台”选项卡中。