Apache Tika:在java中通过Rest解析docx文件

时间:2017-02-28 11:59:02

标签: java rest apache-tika tika-server

我在服务器模式下使用Appache Tika。 我需要开发java rest客户端来解析文件。 对于pdf文件上传我使用代码:

fileBody = new FileBody(file, "application/pdf");
multiPartEntity.addPart("uploaded_file", fileBody);
pdfPutRequest.setEntity(multiPartEntity);
response = client.execute(pdfPutRequest);

使用apache.http库。 现在我尝试开发docx部分,但我不知道我需要提供哪个mimeType(application / docx给我错误)。 没有mimeTipe我收到例外"不支持的媒体类型"在Tika服务器中。 那么我需要提供哪种类型,我需要做一些其他更改。

解决!

2 个答案:

答案 0 :(得分:0)

.docx文件的官方mime类型是

application/vnd.openxmlformats-officedocument.wordprocessingml.document

如果您在--detect模式下使用Tika CLI工具,它可以告诉您

或者,Tika Server具有可用的检测模式as documented in the Tika Server wiki

最后,如果没有给出mika类型,Tika将自动检测mime类型,请参阅the text extraction part of the Tika Server docs以获取有关给予或不给出文件的mimetype提示的信息

答案 1 :(得分:0)

我找到了解决方案:

[
  {
    "1": "yes",
    "2": "yes",
    "3": "yes",
    "4": "yes",
    "5": "yes",
    "6": "yes",
    "7": "yes"
  },
  {
    "1": "yes",
    "2": "yes",
    "3": "yes",
    "4": "yes",
    "5": "yes",
    "6": "yes",
    "7": "yes"
  },
  {
    "1": "no",
    "2": "no",
    "3": "no",
    "4": "no",
    "5": "no",
    "6": "no",
    "7": "no"
  }...

这可能会对某人有所帮助