我想在TernsorFlow网站提供的示例中使用另一种语言对,Google Colab笔记本只选择西班牙语-英语 https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/r2/tutorials/text/nmt_with_attention.ipynb
我尝试更改从中下载的esp-eng数据的链接,但这没有帮助
页面末尾确实提到了如何在不本地设置colab的情况下尝试其他语言集。
答案 0 :(得分:0)
关于使用其他数据集的最后说明涉及this website,其中包括制表符分隔的文件。
您主要需要根据指向所需zip文件的链接来更改此单元格中的值。
# Download the file
path_to_zip = tf.keras.utils.get_file(
'spa-eng.zip', origin='http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip',
extract=True)
path_to_file = os.path.dirname(path_to_zip)+"/spa-eng/spa.txt"
您可以尝试以下其他数据集:
但是,在这些语料库中,源和目标位于两个单独的文件中,因此您必须调整提取对的代码,而不是split('\t')
,它应该打开两个文件并通过以下方式获取源和目标行线。