搜索文档的逻辑

时间:2012-04-27 13:30:02

标签: full-text-search logic

在当今时代,我们拥有大量的信息。有时,信息很大而且没有数字化。您将从多个类似的手册中找到具体信息,以便实时向用户提供有关信息的信息。用户无需阅读所有文档。 您是否首先将文档转换为类似的结构?有什么建议?
编辑:
 我知道这是某种文本搜索问题。   让我举一个例子,使问题变得有点集中:
MANUAL1 :(加州)

Table of content 
...

Precautions:
1.) The operator must use synthetic gloves to handle chemicals
...

MANUAL2 :(对于Minesotta)

Table of content
...
Precautions:
1.) Use polymer gloves while being in any contact with hazardous chemicals
...

现在该程序的用户只需查询“处理有害化学物质”,该程序应该给他以上两个选项

  1. CA)操作员必须使用合成手套处理化学品
  2. MN)在与危险化学品接触时使用聚合物手套
  3. 非常感谢。

1 个答案:

答案 0 :(得分:1)

隐含地,你至少有五个级别的“重组”来应对。

  1. 如何整理加利福尼亚的手册集? (文件语料库)
  2. 如何从纯文本文件中提取文本? HTML?一个PDF?一个Word文档? (文件物理格式)
  3. 如何识别章节,章节,标题,副标题,标题,表格? (文档级别的语义)
  4. 如何解析纯文本以提取含义? (句子级别的语义)
  5. 我如何处理同义词和整体关系? (本体)
  6. 当你意识到“与任何接触”与“处理”有关时,你的问题意味着某种句子级别的语义和本体论分析。

    您可以查看IBM's Watson project关于如何从大量数据中提取意义的一些想法以及一些新的本体方法。

    您的方法对这些问题的具体或概括性如何?这在某种程度上取决于语料库的界限。您是在处理Google搜索“化学品”中的任何文档,还是只处理加州EPA公开提供的文档?