标签: nlp stanford-nlp
在使用LSTM或RNN生成新文本后,我如何测量新文本的质量。我使用BLEU得分?,但是BLEU用于评估关注语义的线到线生成任务两条线之间的相关性。在这里我没有比较两个句子的目标,因为我完全得到了一个新的文本。
答案 0 :(得分:0)
BLEU分数只能用于根据一个或多个参考输出评估候选文本输出。
从你的问题来看,你所尝试的文本生成任务是什么样的,这一点都不清楚。如果您正在训练单语数据的RNN语言模型并从中抽取句子,您可以使用LM计算您知道写得很好的测试文档的困惑来评估它。