Question

我有一个很大的PDF文档，在将结果页面提供给EntityRecognitionSkill技能之前，我将使用SplitSkill技能将其拆分为4000个单词块。我显然不应该将文档内容返回给用户，因为它是如此之大。那么，如何从SplitSkill返回“页面”，以便用户看到通过搜索找到的原始文档部分？

我尝试在索引上创建一个名为“页面”的新字段，因为这是SplitSkill的输出：

"skills": [
    {
      "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
      "name": "#42",
      "description": "Split content into pages",
      "context": "/document/merged_content",
      "defaultLanguageCode": "en",
      "textSplitMode": "pages",
      "maximumPageLength": 4000,
      "inputs": [
        {
          "name": "text",
          "source": "/document/merged_text"
        },
        {
          "name": "languageCode",
          "source": "/document/languageCode"
        }
      ],
      "outputs": [
        {
          "name": "textItems",
          "targetName": "pages"
        }
      ]
    },

再次运行索引器似乎没有引起任何错误；但是，索引的pages字段始终为空。

Azure搜索（blob提取）：使用SplitSkill时如何将单个页面带入索引？

0 个答案: