如何从非结构化文本中提取确切信息

时间:2017-11-03 08:47:00

标签: nlp information-retrieval

我想从非结构化文本中提取一些信息。

例如,我的文字是“控制NewYork温度低于39”

我想要的信息是(“控制”,“纽约”,“温度”,“下”,“39”)。

在结果信息中,代表行动的“控制”,代表行动目标的“NewYork”,作为指标的“温度”和代表范围的“39岁以下”。

然而,文本内容的结构是多种多样的。

以下是一些典型案例。

"Control NewYork temperature under 39"
==>("control","NewYork", "temperature", "under", "39")

"give some money to my brother"
==>("give", "money", "my brother")

"Adjust the height of the table"
==>("adjust", "table", "height")

对我的问题有什么建议吗? 非常感谢!

1 个答案:

答案 0 :(得分:0)

你有几种范式来做这种结构化预测。 最常见的是:

使用框架语义:http://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签(SRL):http://cogcomp.org/page/demo_view/srl

主要区别在于SRL的语义角色对于不同的动词具有不同的含义,而帧语义是一种为语义概念提供通用角色的抽象。

您可以轻松找到在Github上执行Frame Semantic Parsing或SRL的工具。但是,SRL使用得更广泛