在当今时代,我们拥有大量的信息。有时,信息很大而且没有数字化。您将从多个类似的手册中找到具体信息,以便实时向用户提供有关信息的信息。用户无需阅读所有文档。
您是否首先将文档转换为类似的结构?有什么建议?
编辑:
我知道这是某种文本搜索问题。
让我举一个例子,使问题变得有点集中:
MANUAL1 :(加州)
Table of content
...
Precautions:
1.) The operator must use synthetic gloves to handle chemicals
...
MANUAL2 :(对于Minesotta)
Table of content
...
Precautions:
1.) Use polymer gloves while being in any contact with hazardous chemicals
...
现在该程序的用户只需查询“处理有害化学物质”,该程序应该给他以上两个选项
非常感谢。
答案 0 :(得分:1)
隐含地,你至少有五个级别的“重组”来应对。
当你意识到“与任何接触”与“处理”有关时,你的问题意味着某种句子级别的语义和本体论分析。
您可以查看IBM's Watson project关于如何从大量数据中提取意义的一些想法以及一些新的本体方法。
您的方法对这些问题的具体或概括性如何?这在某种程度上取决于语料库的界限。您是在处理Google搜索“化学品”中的任何文档,还是只处理加州EPA公开提供的文档?