我和solr一起工作了几天,我需要将文档拆分成段落,然后搜索每一段。我尝试了很多东西,但solr只是不想正确捕捉段落;它既不会捕获任何内容,也不会将所有内容捕获为一个大文本。我试过了:
ContentStreamUpdateRequest up
= new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File("/home/usr/Documents/example.doc"));
up.setParam("literal.id", "foo");
up.setParam(ExtractingParams.CAPTURE_ATTRIBUTES, "true");
up.setParam(ExtractingParams.CAPTURE_ELEMENTS, "p");
up.setParam(ExtractingParams.MAP_PREFIX + "p", "attr_paragraphs");
无论我尝试什么组合总是会得到错误的结果。有谁知道如何获得段落并使它们易于使用?我正在编写一个插件来执行基于查询的基本查询,并且应该检索具有查询信息最多的段落,但我只是不知道如何获取段落。
谢谢!