我的团队希望将认知搜索应用于大量非结构化“政策”文档(例如,汽车保险政策文档)。这些文档中的一些信息是在格式化表格中组织的。人类读者会使用行和列标题来解释文档。
例如,我的保单范围可能会有所不同,具体取决于事件的性质以及涉及哪些车辆。在我的解决方案的上下文中,此信息位于政策文档的表格中,其中表格的行列出了各种类型的事件,列列出了策略中涵盖的不同车辆。每个表格单元格描述特定事件/车辆组合的覆盖范围。
自然要做的是,使用与该单元格的列和行标题的关系来注释每个表格单元格。我希望Watson Discovery已经做到了这一点,或者可以为我做这件事。但是,在我的实验中,我没有看到表明这是如此的结果。 Discovery或Watson Knowledge Studio中的设施是否有助于利用表格中的行和列标题中的信息?
答案 0 :(得分:0)
表格内容是结构化数据,不适合WKS / Discovery进行分析。 WKS接受自然语言文本的纯文本。虽然Discovery接受HTML / WORD / PDF文档,但是在预处理过程中将提取的文档转换为纯文本,并且将删除所有表结构。因此,在文本分析中不考虑表的关系。 我建议您将此类表内容数据作为结构化数据处理,并以其他方法(如编程方式)处理它们。