自动生成文章

时间:2013-12-06 08:08:35

标签: math nlp artificial-intelligence computer-science spintax

这个问题是要学习和了解特定技术是否存在。以下是该方案。

我们将提供200个英语单词。软件可以添加额外的40个字,这是200的20%。现在,使用这些,软件应该编写对话框,有意义的对话框,没有语法错误。

为此,我调查了SpintaxArticle Spinning。但你知道他们做了什么,拿现有的文章并重写它。但这不是最好的方法(是吗?请告诉我,如果它是好的)。那么,有没有能够做到这一点的技术?可能是谷歌使用的语义理论吗?任何经证实的AI方法?

请帮忙。

1 个答案:

答案 0 :(得分:9)

首先,请注意:这是自然语言生成(NLG)研究的前沿,而且最先进的研究出版物还不够好取代人类老师。对于英语作为第二语言(ESL)的学生来说,这个问题尤为复杂,因为在将知识转化为英语之前,他们倾向于用自己的母语思考。如果我们无视这个可怕的前奏,那么解决这个问题的正常方法如下:

NLG由三个主要组成部分组成:

  1. 内容规划
  2. 句子计划
  3. 表面实现
  4. 内容规划:此阶段将通信的高级目标分解为结构化的原子目标。这些原子目标很小,只需通过一个通信步骤即可达到(例如,在单个子句中)。

    句子规划:在这里,实际的lexemes(即带有明确语义的单词或单词部分)被选择为原子交流目标的一部分。词汇通过谓词 - 参数结构连接起来。句子规划阶段也决定句子边界。 (例如,学生应该写“我去了那里,但她已经离开了。”或“我去那里看她。她已经离开了。”......注意不同的句子边界和不同的词汇,但两个答案都表明同样的意思。)

    表面实现:在句子规划步骤中获得的半成形结构通过合并function words(确定者,辅助者等)和变形而变形为适当的形式。

    在您的特定场景中,大多数单词已经提供,因此选择词汇将相对简单。需要通过使用合适的概率学习模型(例如hidden Markov models)来学习连接词汇的谓词 - 论证结构。表面实现,确保最终正确的语法结构,应该是语法规则和statistical language models的组合。

    在高级别,请注意内容规划与语言无关(但很可能是依赖于文化的),而最后两个阶段则取决于语言。

    作为最后一点,我想补充一点,40个额外单词的选择是我所掩盖的,但它并不比这个过程的其他部分重要。在我看来,这些额外的单词应该根据他们与200个给定单词的组合关系来选择。

    有关更多详细信息,以下两篇文章提供了一个良好的开端(完成了流程架构,示例等):

    1. Natural Language Generation in Dialog Systems
    2. Stochastic Language Generation for Spoken Dialogue Systems
    3. 为了更好地理解组合关系的概念,我发现Sahlgren's article on distributional hypothesis非常有帮助。他的工作中的分布式方法也可以用来学习我之前提到的谓词 - 论证结构。

      最后,要添加一些可用工具:请查看this ACL list of NLG systems。我没有使用过它们,但我听说过SPUD和OpenCCG的好消息。