我正在寻找用于生成随机但逼真的文本的工具。我自己实现了马尔可夫链文本生成器,虽然结果很有希望,但我在改进它们方面的尝试并没有取得任何重大成功。
我会对使用语料库或基于上下文敏感或无上下文语法操作的工具感到满意。我希望该工具适合包含在另一个项目中。 我最近的大部分工作都是用Java编写的,因此使用该语言的工具是首选,但我可以使用C#,C,C ++甚至JavaScript。
这类似于question,但范围更大。
答案 0 :(得分:6)
如果您想要“随机”文本,扩展您自己的马尔可夫链生成器可能是您最好的选择。生成具有上下文的东西是一个开放的研究问题。
尝试(如果你还没有):
或者,您可以在语料库的两次传递中使用WordNet:
这种方法也存在很多问题:例如,您需要来自周围单词的上下文来了解选择哪个同音词。在wordnet中查找“快速”会产生关于快速的东西,但也会指出你的指甲。
我知道这并不能解决您对库或工具的要求,但可能会给您一些想法。
答案 1 :(得分:0)
像this Lorem ipsum生成器一样?还有几个API的链接。
答案 2 :(得分:0)
我为此目的使用了许多数据集,包括wikinews文章。
我使用此工具从中提取文字: http://alas.matf.bg.ac.rs/~mr04069/WikiExtractor.py