标签: pdf pdf-scraping tabula
我使用Tabula将PDF转换为CSV文件取得了很大的成功,但这个特别的问题引起了我各种各样的问题。该文件位于here。
似乎多排跨度导致Tabula头痛。我不希望Tabula完美地转换文件,我希望我需要做一些后处理清理(通常是几个sed命令),但我甚至没有接近创建一个起始点的CSV文件。我已经尝试了电子表格,无电子表格,猜测,列和区域,但没有成功。有没有人对于尝试什么有任何其他想法?