我需要从存储在mongodb上的PDF文件中挖掘一些数据,有一个具有以下模式的集合:
{
'ContentType': 'application/pdf',
'FileName': 'JVBERi0xLjQKJeLjz9MKMiAw...<very long string>...UVPRgo=',
'ID': 'ae8e05ea-1f45-4e4c-af08-5c9dbc461e66',
'TimePosted': '03/07/2018 13:04:59',
'UserClientID': {
'_id': 'agentbb5cdce28f5020180703',
'name': 'Usuário'
},
'_id': ObjectId('5b3b9eaba4c3901b1c5f8fa9')
}
我对如何将文本提取到这些文件没有任何想法。有人可以给我点光吗?
更新:与一位同事进行了交谈,他对我说文件名是base64编码的字符串,我做了测试,可以使用this site对其进行解码。我只需要知道现在如何将其传递给PDF解析库即可。