Question

我正在使用MuPDF从pdf文件中提取一些文本。大部分时间它工作正常，但偶尔最后一行将不提取或不打印。

fz_text_sheet *sheet = fz_new_text_sheet(self.ctx);
fz_text_page *text = fz_new_text_page(self.ctx, &fz_empty_rect);
fz_device *dev = fz_new_text_device(self.ctx, sheet, text);

fz_page *page = fz_load_page(self.doc, pageNumber);
fz_run_page(self.doc, page, dev, &fz_identity, NULL);

fz_output *out = fz_new_output_file(ctx, stdout);
fz_print_text_page_html(ctx, out, text);

此PDF的第一页无法打印该页面上的最后一行文字。

我做错了什么或者这是一个错误？

谢谢！

Answer 1

您必须先释放文本设备，然后才能安全地使用fz_text_page。可能有一些缓冲在设备中的东西在被释放之前不会被刷新。

使用MuPDF从PDF中提取文本时，最后一行文本被截断

1 个答案: