我目前正在使用具有Watson辅助功能和Watson-discovery的应用程序工作,最近遇到了问题。每当我对Watson-discovery集合进行查询时,它都会正确解释查询,但是在段落中总会有一些包含元数据或文档格式代码的
。我想过滤掉这些内容,因为我将主要向用户显示来自发现的响应。
这是我的查询代码:
function queryDiscovery(query){
return new Promise((resolve, reject)=>{
discovery.query({
environment_id: environment,
collection_id: collection,
configuration_id: configuration,
natural_language_query: query,
passages: true,
count: 3,
}, (err, data) => {
if(err){
reject(err);
} else {
const {results} = data;
resolve(data);
}
})
})
}
这是我正在谈论的回应类型:
{
"matching_results": 1,
"session_token": "1_uy3Xpn0Xbw8XEEN4im2fffLxPA",
"passages": [
{
"document_id": "906e52b7e1144ab800c955d4d76f4711",
"passage_score": 7.251949122793696,
"passage_text": "Microsoft Word - Diabetes tipo 2 Guines en ESPANOL.docx\n\nGuiones Diabetes Tipo 2 1.1 ¿Qué es la diabetes?\n\n• ¿Qué es?\n\nLa diabetes es una enfermedad de larga evolución. Puede provocar problemas",
"start_offset": 0,
"end_offset": 193,
"field": "text"
},
{
"document_id": "906e52b7e1144ab800c955d4d76f4711",
"passage_score": 6.680067228882112,
"passage_text": "content=\"24\" name=\"numPages\"/><title>Microsoft Word - Diabetes tipo 2 Guines en ESPANOL.docx</title></head>\n<body><h3><p>Guiones Diabetes Tipo 2 1.1 ¿Qué es la diabetes? </p></h3><p><b>•</b><b> </b>¿Qué es?",
"start_offset": 197,
"end_offset": 403,
"field": "html"
},.....
如您所见,段落文本包含很多我不想要的文档格式代码。
关于nodejs + discovery的文档不多,我发现的内容并没有太大帮助。我不知道我上传的PDF文件格式是否错误,或者是否必须以其他方式配置发现,或者是否有所不同。
任何帮助将不胜感激!