从尼采数据集预测字符

时间:2017-11-15 07:47:24

标签: algorithm neural-network artificial-intelligence lstm rnn

我正在为移动应用构建基于字符的自动完成功能,并通过使用nietzsche数据集预测字符来测试我的实现。

我正在使用的数据集是:

http://evolve.drawcast.com/nietzsche_train.txt
http://evolve.drawcast.com/nietzsche_test.txt

我看到测试集的下一个字符预测性能为57.6%,使用了一个简单的实现(基本上是一个从字符串末尾退一步的频率树)。

我想知道的是......我可以通过合理的努力取得更好的成绩吗?

我愿意使用RNN / LSTM路线,但是看下面的内容我看到相同(或类似)数据集的字符预测性能大约为56%。

http://curiousily.com/data-science/2017/05/23/tensorflow-for-hackers-part-5.html

不幸的是,我找不到任何其他明确的文本序列数据字符预测结果。

如果我能看到他们的表现比我的表现要好得多,我已经准备好接受RNN(或其他东西)。任何人都有一个实现,他们可以快速测试上述数据或知道我可以比较的东西?

0 个答案:

没有答案