Question

示例句子

a）谁是IBM的首席执行官？

b）IBM办公室在哪里？

使用标记化，pos-tagging和chunking将一系列操作应用于上述句子以提取关系。

谁是IBM的首席执行官 - （提取的元组） - ＆gt; [谁，IBM的首席执行官]

IBM办公室 - （提取的元组） - ＆gt; [在哪里，IBM Office位于]

从提取的依赖项中，我如何确定问题的内容？句子中的 WP 和 WHP 单词如何表示从基于知识的数据集中提取数据需要进行何种查询。

喜欢a）谁指向名称，地点或任何其他命名实体。

和b）其中指向名称，地点或任何其他命名实体。

使用自然语言处理技术或文本挖掘的任何建议都受到高度赞赏。

Answer 1

这取决于您期望的输入句子的可变性。对于您提供的示例，您可以使用非常简单的模式匹配。只需设置一些模式，如

WHO IS ...? -> [who, ...]  
WHERE IS ...? -> [where, ...]  
WHERE CAN I FIND ...? -> [where, ...]

然后使用字符串匹配在输入数据中找到这些模式。如有必要，您甚至可以使用正则表达式：

s/who is \(.*\)/[who, \1]/

（使用sed风格的搜索并在此处替换）

这当然只会匹配那些特定的示例，但如果您的大多数数据看起来像这样，您可能不需要全面的NLP方法。您总是可以添加更多这样的模式，但在某些时候它可能会变得无法管理。但是，这可能会让您在特定问题上走得更远。

你当然可以做一个完整的句法分析，但它可能是矫枉过正的＆amp;太脆了。正确的方法完全取决于您的用例。