我正在使用谷歌机器学习API 来生成纯文本中的动态问题和答案。
例如,纯文本包含以下信息:
亚伯拉罕林肯出生于1809年2月12日,在哈丁县, 肯塔基州,托马斯和南希林肯在他们的一个房间小屋上 他们的农场被称为沉没的春天(近现代Hodgenville, 肯塔基州)。虽然托马斯缺乏正规教育,但他是一名教授 优秀的农民和木匠,经常担任会员 陪审团。林肯在西部长大 Frontier在肯塔基州和印第安纳州。大部分是自学成才,他成了一名 伊利诺伊州的一名辉格党领袖律师,当选为 伊利诺伊州众议院,他在那里任职八年 年。
元组格式的预期输出: 问题&答案
("When was Lincoln born?" , "February 12, 1809", "1809", "February 12")
("Where Abraham Lincoln was born?", "Hardin County", "Kentucky", "Hardin County, Kentucky")
("Who is good in farming and carpentering?", "Lincoln", "Abraham Lincoln", "Abraham")
("In which country he grew up?", "western frontier in Kentucky and Indiana")
("How many years he served in Illinois House of Representatives?","eight", "eight years")
("what is IHR?", "Illinois House of Representatives")
("What is full form of IHR?","Illinois House of Representatives")
我试过了:
我使用google ML APIs
生成了三元组, syntaxList 和实体。
有人可以帮我生成上述输出吗?
答案 0 :(得分:4)
您应该查看Stanford Question Answer数据集。这正是您正在寻找的目的。它也是2017年在CS224N中的一项任务。您可以找到作业和入门代码here。该作业将引导您在TensorFlow中自行编码并且非常彻底。如果你只想提起代码并使用它,你也可以在学生的github上找到这些作业的解决方案。
希望这有帮助!