Question

我想从非结构化文本中提取一些信息。

例如，我的文字是“控制NewYork温度低于39”

我想要的信息是（“控制”，“纽约”，“温度”，“下”，“39”）。

在结果信息中，代表行动的“控制”，代表行动目标的“NewYork”，作为指标的“温度”和代表范围的“39岁以下”。

然而，文本内容的结构是多种多样的。

以下是一些典型案例。

"Control NewYork temperature under 39"
==>("control","NewYork", "temperature", "under", "39")

"give some money to my brother"
==>("give", "money", "my brother")

"Adjust the height of the table"
==>("adjust", "table", "height")

对我的问题有什么建议吗？非常感谢！

Answer 1

你有几种范式来做这种结构化预测。最常见的是：

使用框架语义：http://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签（SRL）：http://cogcomp.org/page/demo_view/srl

主要区别在于SRL的语义角色对于不同的动词具有不同的含义，而帧语义是一种为语义概念提供通用角色的抽象。

您可以轻松找到在Github上执行Frame Semantic Parsing或SRL的工具。但是，SRL使用得更广泛

如何从非结构化文本中提取确切信息

1 个答案: