这个问题是要学习和了解特定技术是否存在。以下是该方案。
我们将提供200个英语单词。软件可以添加额外的40个字,这是200的20%。现在,使用这些,软件应该编写对话框,有意义的对话框,没有语法错误。
为此,我调查了Spintax
和Article Spinning
。但你知道他们做了什么,拿现有的文章并重写它。但这不是最好的方法(是吗?请告诉我,如果它是好的)。那么,有没有能够做到这一点的技术?可能是谷歌使用的语义理论吗?任何经证实的AI方法?
请帮忙。
答案 0 :(得分:9)
首先,请注意:这是自然语言生成(NLG)研究的前沿,而且最先进的研究出版物还不够好取代人类老师。对于英语作为第二语言(ESL)的学生来说,这个问题尤为复杂,因为在将知识转化为英语之前,他们倾向于用自己的母语思考。如果我们无视这个可怕的前奏,那么解决这个问题的正常方法如下:
NLG由三个主要组成部分组成:
内容规划:此阶段将通信的高级目标分解为结构化的原子目标。这些原子目标很小,只需通过一个通信步骤即可达到(例如,在单个子句中)。
句子规划:在这里,实际的lexemes(即带有明确语义的单词或单词部分)被选择为原子交流目标的一部分。词汇通过谓词 - 参数结构连接起来。句子规划阶段也决定句子边界。 (例如,学生应该写“我去了那里,但她已经离开了。”或“我去那里看她。她已经离开了。”......注意不同的句子边界和不同的词汇,但两个答案都表明同样的意思。)
表面实现:在句子规划步骤中获得的半成形结构通过合并function words(确定者,辅助者等)和变形而变形为适当的形式。
在您的特定场景中,大多数单词已经提供,因此选择词汇将相对简单。需要通过使用合适的概率学习模型(例如hidden Markov models)来学习连接词汇的谓词 - 论证结构。表面实现,确保最终正确的语法结构,应该是语法规则和statistical language models的组合。
在高级别,请注意内容规划与语言无关(但很可能是依赖于文化的),而最后两个阶段则取决于语言。
作为最后一点,我想补充一点,40个额外单词的选择是我所掩盖的,但它并不比这个过程的其他部分重要。在我看来,这些额外的单词应该根据他们与200个给定单词的组合关系来选择。
有关更多详细信息,以下两篇文章提供了一个良好的开端(完成了流程架构,示例等):
为了更好地理解组合关系的概念,我发现Sahlgren's article on distributional hypothesis非常有帮助。他的工作中的分布式方法也可以用来学习我之前提到的谓词 - 论证结构。
最后,要添加一些可用工具:请查看this ACL list of NLG systems。我没有使用过它们,但我听说过SPUD和OpenCCG的好消息。