是否有人知道如何搜索多页pdf中的某些文本(例如发票号),然后将该页面提取到单独的文件中?我看到如何使用FPDI提取特定页面,然后使用FPDF进行修改和保存。我无法弄清楚的部分是如何搜索pdf并确定文本所在的页码。这最好用php完成,但如果有必要,我愿意使用别的东西。
有什么建议吗?
谢谢。
答案 0 :(得分:0)
这个页面帮助我找到了解决方案:
http://www.freak-search.com/en/thread/2817957/find_page_number_containing_a_given_text
基本上,您在bash脚本中使用命令行程序“pdftotext”(请参阅链接)以返回页码,然后使用FPDI来提取页面。效果很好。