使用PDFLib / TET和boto解析亚马逊s3上的pdf

时间:2014-06-20 07:34:43

标签: python-2.7 pdf amazon-s3 pdflib

  1. 从亚马逊s3(使用boto)
  2. 阅读pdf文件
  3. 将其保存为123.pdf
  4. 使用PDFLib / TET打开并解析本地保存的pdf
  5. 我目前能够执行上述所有3个步骤但是 我想跳过第2步以保存在磁盘I / O上。

    看起来可以使用tet_open_document_mem让TET在内存中打开文档但是 没有关于如何使用它的文档。

1 个答案:

答案 0 :(得分:1)

TET提供所谓的PDFlib虚拟文件系统(PVF)来处理这种情况。

您可以使用create_pvf()从内存中提供的数据创建命名的虚拟只读文件。

API看起来像这样(C):

void TET_create_pvf(TET *tet, const char *filename, int len, const void *data, size_t size, const char *optlist)

所以可以像这样使用:

TET_create_pvf(tet, pvfname, 0, data, length, "");
doc = TET_open_document(tet, pvfname, 0, docoptlist);

更多详细信息,请参阅TET-Manual http://www.pdflib.com/fileadmin/pdflib/pdf/manuals/TET-4.3-manual.pdf

TET_open_document_mem是一个不再受支持的旧API。