我想从非结构化文本中提取一些信息。
例如,我的文字是“控制NewYork温度低于39”
我想要的信息是(“控制”,“纽约”,“温度”,“下”,“39”)。
在结果信息中,代表行动的“控制”,代表行动目标的“NewYork”,作为指标的“温度”和代表范围的“39岁以下”。
然而,文本内容的结构是多种多样的。
以下是一些典型案例。
"Control NewYork temperature under 39"
==>("control","NewYork", "temperature", "under", "39")
"give some money to my brother"
==>("give", "money", "my brother")
"Adjust the height of the table"
==>("adjust", "table", "height")
对我的问题有什么建议吗? 非常感谢!
答案 0 :(得分:0)
你有几种范式来做这种结构化预测。 最常见的是:
使用框架语义:http://www.cs.cmu.edu/~ark/SEMAFOR/
使用语义角色标签(SRL):http://cogcomp.org/page/demo_view/srl
主要区别在于SRL的语义角色对于不同的动词具有不同的含义,而帧语义是一种为语义概念提供通用角色的抽象。
您可以轻松找到在Github上执行Frame Semantic Parsing或SRL的工具。但是,SRL使用得更广泛