索尔获取文件段落

时间:2011-12-31 13:40:07

标签: java solr solr-cell

我和solr一起工作了几天,我需要将文档拆分成段落,然后搜索每一段。我尝试了很多东西,但solr只是不想正确捕捉段落;它既不会捕获任何内容,也不会将所有内容捕获为一个大文本。我试过了:

 ContentStreamUpdateRequest up 
    = new ContentStreamUpdateRequest("/update/extract");

  up.addFile(new File("/home/usr/Documents/example.doc"));
  up.setParam("literal.id", "foo");

  up.setParam(ExtractingParams.CAPTURE_ATTRIBUTES, "true");
  up.setParam(ExtractingParams.CAPTURE_ELEMENTS, "p");
  up.setParam(ExtractingParams.MAP_PREFIX + "p", "attr_paragraphs");

无论我尝试什么组合总是会得到错误的结果。有谁知道如何获得段落并使它们易于使用?我正在编写一个插件来执行基于查询的基本查询,并且应该检索具有查询信息最多的段落,但我只是不知道如何获取段落。

谢谢!

0 个答案:

没有答案