我正在为移动应用构建基于字符的自动完成功能,并通过使用nietzsche数据集预测字符来测试我的实现。
我正在使用的数据集是:
http://evolve.drawcast.com/nietzsche_train.txt
http://evolve.drawcast.com/nietzsche_test.txt
我看到测试集的下一个字符预测性能为57.6%,使用了一个简单的实现(基本上是一个从字符串末尾退一步的频率树)。
我想知道的是......我可以通过合理的努力取得更好的成绩吗?
我愿意使用RNN / LSTM路线,但是看下面的内容我看到相同(或类似)数据集的字符预测性能大约为56%。
http://curiousily.com/data-science/2017/05/23/tensorflow-for-hackers-part-5.html
不幸的是,我找不到任何其他明确的文本序列数据字符预测结果。
如果我能看到他们的表现比我的表现要好得多,我已经准备好接受RNN(或其他东西)。任何人都有一个实现,他们可以快速测试上述数据或知道我可以比较的东西?