如何在检索和排名上将大文档分解为较小的答案单元?

时间:2017-02-22 00:52:12

标签: ibm-cloud ibm-watson watson document-conversion

我对于检索和排名以及文档转换服务仍然很陌生,所以我最近一直在玩这个。

我遇到了一个问题,当我上传一个大文件(100多页)时 - 检索和排名会帮我自动将其分解为答案单元,这很有帮助。

但是,有些问题只需要在大块的答案单元中有一个小行,是否有一种方法可以手动打破检索和排名服务为我提供的答案单元?

我听说你可以通过JavaScript来实现,但有没有办法通过UI来实现?

我正在考虑手动将大型文档分解为多个较小的文档,但这可能会导致其中的100个 - 这可能是我最后选择的选项。

非常感谢任何帮助或建议!

谢谢大家!

1 个答案:

答案 0 :(得分:3)

首先,一个澄清:

检索和排名不会将您的文档分解为答案单元。当您的转化目标为ANSWER_UNITS时,文档转换服务会执行此操作。

关于你的问题:

我并不完全明白您要尝试做什么,但如果默认生成的答案单元不符合您的要求,您可以自定义转换过程的不同步骤以调整生成的答案单元。请查看文档here

具体来说,您要确保标题级别(对于Word,PDF或HTML,具体取决于您的文档类型)的定义方式是 他们检测每个答案单元的开始。然后,确保您定义的标题级别(h1,h2,h3等)包含在selector_tags部分的answer_units列表中。

一旦您的自定义文档转换服务配置生成您正在寻找的答案单元,您就可以将它们发送到Retrieve和Rank进行索引。