KNIME附带了几个本地节点,用于执行不同的标记任务,如POS标记或命名实体识别。为了使用已识别的标签或术语,您可以使用Bag of Words节点,该节点生成 terms (非单词)和相关标签。但是,此方法没有详细说明哪个标记与每个单词相关联,也没有详细说明标记(或单词)的顺序。
因此,如果您想提取“POS标签+/-与实际单词相关的N个单词”等功能(例如单词窗口),您怎么样?
例如,对于“那个城市是纽约”,我想KNIME生成一个有序列表,如: (最后一个NN将是一个命名实体)。
答案 0 :(得分:1)
是的,这是一个问题。我上周遇到了同样的情况。
如果你想逐字逐句地获取POS,你可以将标签到字符串节点链接到单词节点输出的包,但我认为这种方法对于大型文档来说是失败的,因为可能会有所不同相同单词的POS(某个单词的POS值是使用单词的上下文决定的)因为单词节点节点按文档显示唯一的术语。
现在,为了获得这个窗口(“POS标签+/- N字相对于实际单词”),我的解决方案是通过命令行连接 Freeling (外部toold节点或通过python / java代码)并获取每个单词的相应标记,只需查看返回的向量。