标签: deep-learning nlp metrics language-model data-quality
我是深度学习领域的新手。最近,我尝试使用给定的种子词,使用某种语言模型来生成一些句子。我个人的看法是,生成的数据质量不错,但是我仍然很好奇,是否知道是否有度量标准可以检查文本数据的质量。有人建议使用此数据使用LM的困惑。会是一个很好的指标吗?