从单词组合语法正确的短语的算法

时间:2013-08-28 15:36:58

标签: algorithm nlp

我目前面临的问题如下。我有一组单词,并且想要用它们构造一个语法正确的短语/句子,如果可能的话。到目前为止我尝试的是:

  • 从参考文本语料库中计算句子中每个单词的平均位置;
  • 使用此功能,对集合中的单词进行排序,并与空格分开。

这种方法的问题在于,它大部分时间都会产生毫无意义的奇异短语。有没有办法实现这一点,可能使用技术(假设,我只使用英语)?

3 个答案:

答案 0 :(得分:1)

您可以使用ngram模型生成文本。 也许这有帮助:http://www.uspleste.usp.br/ivandre/papers/improvedTextGenNgramStat.pdf

一种常见的方法是从语料库中获取所有3个数据,然后使用概率生成文本。

答案 1 :(得分:0)

您可以查看马尔可夫链的示例:http://phpir.com/text-generation

答案 2 :(得分:0)

如果你只有一些单词,我认为你需要

  1. 查找每个单词的所有可能标签
  2. 以语法/语法有效的方式将它们合并
  3. 然而,这并不一定会给你 meaningul 句子。他们可能会很奇怪,但如果你的话语很受限制,可能就不会这样了,因为它似乎就是这样。

    如果你有一个语料库(我第一次看到你的问题就错过了),那么你应该使用NLTK's generate() function之类的东西,它使用n-gram来生成文本。