Question

我目前正在使用具有Watson辅助功能和Watson-discovery的应用程序工作，最近遇到了问题。每当我对Watson-discovery集合进行查询时，它都会正确解释查询，但是在段落中总会有一些包含元数据或文档格式代码的

。

我想过滤掉这些内容，因为我将主要向用户显示来自发现的响应。

这是我的查询代码：

 function queryDiscovery(query){
  return new Promise((resolve, reject)=>{
    discovery.query({
      environment_id: environment,
      collection_id: collection,
      configuration_id: configuration,
      natural_language_query: query,
      passages: true,
      count: 3,
    }, (err, data) => {
      if(err){
        reject(err);
      } else {
        const {results} = data;
        resolve(data);
      }
    })
  })
}

这是我正在谈论的回应类型：

{
"matching_results": 1,
"session_token": "1_uy3Xpn0Xbw8XEEN4im2fffLxPA",
"passages": [
    {
        "document_id": "906e52b7e1144ab800c955d4d76f4711",
        "passage_score": 7.251949122793696,
        "passage_text": "Microsoft Word - Diabetes tipo 2 Guines en ESPANOL.docx\n\nGuiones Diabetes Tipo 2 1.1 ¿Qué es la diabetes?\n\n• ¿Qué es?\n\nLa diabetes es una enfermedad de larga evolución. Puede provocar problemas",
        "start_offset": 0,
        "end_offset": 193,
        "field": "text"
    },
    {
        "document_id": "906e52b7e1144ab800c955d4d76f4711",
        "passage_score": 6.680067228882112,
        "passage_text": "content=\"24\" name=\"numPages\"/><title>Microsoft Word - Diabetes tipo 2 Guines en ESPANOL.docx</title></head>\n<body><h3><p>Guiones Diabetes Tipo 2 1.1 ¿Qué es la diabetes? </p></h3><p><b>•</b><b> </b>¿Qué es?",
        "start_offset": 197,
        "end_offset": 403,
        "field": "html"
    },.....

如您所见，段落文本包含很多我不想要的文档格式代码。

关于nodejs + discovery的文档不多，我发现的内容并没有太大帮助。我不知道我上传的PDF文件格式是否错误，或者是否必须以其他方式配置发现，或者是否有所不同。

任何帮助将不胜感激！

Watson-discovery和Nodejs：我的查询没有得到预期的答案

0 个答案: