搜索pdf并在找到时提取页面

时间:2011-08-31 19:24:06

标签: php pdf fpdf fpdi

是否有人知道如何搜索多页pdf中的某些文本(例如发票号),然后将该页面提取到单独的文件中?我看到如何使用FPDI提取特定页面,然后使用FPDF进行修改和保存。我无法弄清楚的部分是如何搜索pdf并确定文本所在的页码。这最好用php完成,但如果有必要,我愿意使用别的东西。

有什么建议吗?

谢谢。

1 个答案:

答案 0 :(得分:0)

这个页面帮助我找到了解决方案:

http://www.freak-search.com/en/thread/2817957/find_page_number_containing_a_given_text

基本上,您在bash脚本中使用命令行程序“pdftotext”(请参阅​​链接)以返回页码,然后使用FPDI来提取页面。效果很好。