获取文件apache tika TikaJAXRS的所有元数据

时间:2017-08-09 07:00:08

标签: java python jax-rs apache-tika tika-server

您好我将https://wiki.apache.org/tika/TikaJAXRS部署到服务器上 当我上传文件并致电/meta时,我会收到以下针对docx文件的回复

  

U'{ “内容编码”: “UTF-16LE”, “内容类型”:“应用/ JSON;   字符集\ u003dUTF-16LE”, “X-解析的-通过”:[ “org.apache.tika.parser.DefaultParser”, “org.apache.tika.parser.txt.TXTParser”], “语言”: “BN” }')

1.文件语言是英语,但tika返回'bn'?

2.这是我将获得的唯一元数据吗?文件所有者等怎么样?

守则:      我用python

body= open('/home/Desktop/aws/0.docx','rb')
files = {'upload_file': body}
headers = {'content-type': 'application/octet-stream'}
r = requests.put('http://xx.xx/meta',
                  files=files,headers=headers)
print('text',r.text)

0 个答案:

没有答案