有人会如何创建一个从书/小说中提取说话者的机器学习算法?

时间:2018-06-02 19:19:35

标签: machine-learning text-classification text-analysis

基本上根据发言者组织内容?

摘录自:罗伯特路易斯史蒂文森。 “杰基尔博士和海德先生的奇怪案例。”

示例输入:

  

但Lanyon的脸色变了,他举起了颤抖的手。 "我希望不再看到或听到Jekyll博士,"他用一种响亮,不稳定的声音说道。 "我对那个人做得很好;我恳求你不要再暗示我认为已死的人。

示例输出:

[

“Narrator”: “But Lanyon's face changed, and he held up a trembling hand.”,

“Lanyon”: “I wish to see or hear no more of Dr. Jekyll”,

“Narrator”: “he said in a loud, unsteady voice.”,

“Lanyon”: “I am quite done with that person; and I beg that you will spare me any allusion to one whom I regard as dead.”

]

1 个答案:

答案 0 :(得分:1)

我还没有听说过这样做的算法。但是有两个众所周知的问题可能有用:命名实体识别(找到所有潜在的发言者)和回指解析(决定谁“他”或“她”在每种情况下)。

您还需要为每个引用的文本块训练一个分类器,以确定它是否是直接语音。并且您可能需要另一个分类器来决定每个识别的语音,并且对于上下文中每个识别的说话者,该语音实际上属于该说话者的可能性有多大。