如何在mongodb中提取保存的PDF文件?

时间:2018-07-13 12:36:39

标签: python python-3.x mongodb pdf

我需要从存储在mongodb上的PDF文件中挖掘一些数据,有一个具有以下模式的集合:

{
  'ContentType': 'application/pdf',
  'FileName': 'JVBERi0xLjQKJeLjz9MKMiAw...<very long string>...UVPRgo=',
  'ID': 'ae8e05ea-1f45-4e4c-af08-5c9dbc461e66',
  'TimePosted': '03/07/2018 13:04:59',
  'UserClientID': {
    '_id': 'agentbb5cdce28f5020180703',
    'name': 'Usuário'
  },
  '_id': ObjectId('5b3b9eaba4c3901b1c5f8fa9')
}

我对如何将文本提取到这些文件没有任何想法。有人可以给我点光吗?

更新:与一位同事进行了交谈,他对我说文件名是base64编码的字符串,我做了测试,可以使用this site对其进行解码。我只需要知道现在如何将其传递给PDF解析库即可。

0 个答案:

没有答案