感谢您的时间。
我想知道您对格式化要上传到Watson Retrieve和Rank的特定数据的最佳做法的想法。
我正在建立一个服务,回答有关市政法律和条例的问题,以帮助教育资源/网络贫困农村地区的新当选官员。
这是我面临的难题:
假设我所服务的地区有200个城镇。每个城镇都有类似但不同的条例和法规。每个对系统提出问题的人都会在他们想要完成的事情上提出“相对”类似的问题。但是,答案会因城镇而异。
即。不同城镇的区域划分规定相似,但找不到错误的城镇法令将完全没用,尽管距离相当近。
“Smallville的挫折条例是什么?”可能会推翻任何城镇挫折条例或与Smallville有关的事情,而不是他们的挫折条例。
我有所有文件详细说明了所需的条例和规定。我只是在寻找一些关于如何构建它以确保人们获得准确数据的建议。
我应该为每个城镇的文件集创建一个单独的群集吗?我应该把所有东西都放在一起,只是严格训练以提高准确性,还是有另一条我没想过的道路。
再次感谢,
马特
答案 0 :(得分:1)
这对您找到解决方案有点帮助。
支持您将许多问题映射到单个回答文档表明此处的用例可能非常适合Natural Language Classifier或NLC与检索和排名(RnR)的某种组合。
我真的建议您在媒体中查看这些文章:
Part I - 使用IBM Watson Retrieve和Rank:Solr配置进行开发
Part II - 使用IBM Watson Retrieve和Rank进行开发:培训和评估
Part III - 使用IBM Watson Retrieve和Rank:Custom Features进行开发 (对你的问题很重要)。
参考链接: