我试图找到一个pdf解析器。我在stackoverflow中搜索,但没有令人满意的答案。有人说Zend做得好,但我不想用它。有没有好班级呢?
答案 0 :(得分:0)
我不知道你需要多深入pdf解析,但here是我最近已经完成的将pdf文本提取到json字符串中所做的事情。它也会提取图像,但是如果你不想要它们,你仍然可以在pdfreader / main.py中的run函数中注释这两行
extract_images(pdf_file)
dict_book = get_images_update_dict(dict_book, image_folder)
是的,它在python中不在php中,但你可以通过以下方式返回json中的结果:
exec("./parser.py pdfreader/book.pdf './images/' 2>&1", $output);
$data = json_decode($output)
var_dump($data);