Question

我和solr一起工作了几天，我需要将文档拆分成段落，然后搜索每一段。我尝试了很多东西，但solr只是不想正确捕捉段落;它既不会捕获任何内容，也不会将所有内容捕获为一个大文本。我试过了：

 ContentStreamUpdateRequest up 
    = new ContentStreamUpdateRequest("/update/extract");

  up.addFile(new File("/home/usr/Documents/example.doc"));
  up.setParam("literal.id", "foo");

  up.setParam(ExtractingParams.CAPTURE_ATTRIBUTES, "true");
  up.setParam(ExtractingParams.CAPTURE_ELEMENTS, "p");
  up.setParam(ExtractingParams.MAP_PREFIX + "p", "attr_paragraphs");

无论我尝试什么组合总是会得到错误的结果。有谁知道如何获得段落并使它们易于使用？我正在编写一个插件来执行基于查询的基本查询，并且应该检索具有查询信息最多的段落，但我只是不知道如何获取段落。

谢谢！

索尔获取文件段落

0 个答案: