应用错误收集

我需要从存储在mongodb上的PDF文件中挖掘一些数据，有一个具有以下模式的集合：

{
  'ContentType': 'application/pdf',
  'FileName': 'JVBERi0xLjQKJeLjz9MKMiAw...<very long string>...UVPRgo=',
  'ID': 'ae8e05ea-1f45-4e4c-af08-5c9dbc461e66',
  'TimePosted': '03/07/2018 13:04:59',
  'UserClientID': {
    '_id': 'agentbb5cdce28f5020180703',
    'name': 'Usuário'
  },
  '_id': ObjectId('5b3b9eaba4c3901b1c5f8fa9')
}

我对如何将文本提取到这些文件没有任何想法。有人可以给我点光吗？

更新：与一位同事进行了交谈，他对我说文件名是base64编码的字符串，我做了测试，可以使用this site对其进行解码。我只需要知道现在如何将其传递给PDF解析库即可。

如何在mongodb中提取保存的PDF文件？

0 个答案: