您好我将https://wiki.apache.org/tika/TikaJAXRS部署到服务器上
当我上传文件并致电/meta
时,我会收到以下针对docx文件的回复
U'{ “内容编码”: “UTF-16LE”, “内容类型”:“应用/ JSON; 字符集\ u003dUTF-16LE”, “X-解析的-通过”:[ “org.apache.tika.parser.DefaultParser”, “org.apache.tika.parser.txt.TXTParser”], “语言”: “BN” }')
1.文件语言是英语,但tika返回'bn'?
2.这是我将获得的唯一元数据吗?文件所有者等怎么样?
守则: 我用python
body= open('/home/Desktop/aws/0.docx','rb')
files = {'upload_file': body}
headers = {'content-type': 'application/octet-stream'}
r = requests.put('http://xx.xx/meta',
files=files,headers=headers)
print('text',r.text)