我在服务器模式下使用Appache Tika。 我需要开发java rest客户端来解析文件。 对于pdf文件上传我使用代码:
fileBody = new FileBody(file, "application/pdf");
multiPartEntity.addPart("uploaded_file", fileBody);
pdfPutRequest.setEntity(multiPartEntity);
response = client.execute(pdfPutRequest);
使用apache.http库。 现在我尝试开发docx部分,但我不知道我需要提供哪个mimeType(application / docx给我错误)。 没有mimeTipe我收到例外"不支持的媒体类型"在Tika服务器中。 那么我需要提供哪种类型,我需要做一些其他更改。
解决!
答案 0 :(得分:0)
.docx
文件的官方mime类型是
application/vnd.openxmlformats-officedocument.wordprocessingml.document
如果您在--detect
模式下使用Tika CLI工具,它可以告诉您
或者,Tika Server具有可用的检测模式as documented in the Tika Server wiki。
最后,如果没有给出mika类型,Tika将自动检测mime类型,请参阅the text extraction part of the Tika Server docs以获取有关给予或不给出文件的mimetype提示的信息
答案 1 :(得分:0)
我找到了解决方案:
[
{
"1": "yes",
"2": "yes",
"3": "yes",
"4": "yes",
"5": "yes",
"6": "yes",
"7": "yes"
},
{
"1": "yes",
"2": "yes",
"3": "yes",
"4": "yes",
"5": "yes",
"6": "yes",
"7": "yes"
},
{
"1": "no",
"2": "no",
"3": "no",
"4": "no",
"5": "no",
"6": "no",
"7": "no"
}...
这可能会对某人有所帮助