如何在Google Colab中使用其他成对语言运行“注意神经网络翻译”?

时间:2019-05-27 13:13:58

标签: google-colaboratory

我想在TernsorFlow网站提供的示例中使用另一种语言对,Google Colab笔记本只选择西班牙语-英语 https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/r2/tutorials/text/nmt_with_attention.ipynb

我尝试更改从中下载的esp-eng数据的链接,但这没有帮助

页面末尾确实提到了如何在不本地设置colab的情况下尝试其他语言集。

1 个答案:

答案 0 :(得分:0)

关于使用其他数据集的最后说明涉及this website,其中包括制表符分隔的文件。

您主要需要根据指向所需zip文件的链接来更改此单元格中的值。

# Download the file
path_to_zip = tf.keras.utils.get_file(
    'spa-eng.zip', origin='http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip',
    extract=True)

path_to_file = os.path.dirname(path_to_zip)+"/spa-eng/spa.txt"

您可以尝试以下其他数据集:

但是,在这些语料库中,源和目标位于两个单独的文件中,因此您必须调整提取对的代码,而不是split('\t'),它应该打开两个文件并通过以下方式获取源和目标行线。