Google Datalab自动保存失败。输出块最大?

时间:2017-07-16 23:15:41

标签: google-cloud-datalab

我在Google datalab笔记本中遇到自动保存失败的问题。我在控制台上使用端口8081上的ssh shell。我打开笔记本。做一些改变。点击保存。工作良好。我运行代码,进行另一次更改。点击保存。自动保存失败了!它似乎只发生在这款笔记本上。我不确定如何诊断这个。

有什么想法吗?

问题是可重现的。

更新:我现在将其追溯到一个显示16个扫描图像的代码单元,每个图像大小为10MB。代码窗口或整个datalab笔记本中的输出大小是否有限制?这可能是问题吗?

2 个答案:

答案 0 :(得分:3)

Datalab中使用的Jupyter版本不支持上传大文件,这导致了这个问题。当您尝试保存大型笔记本(大约50MB左右)时,上传实际上是使用Jupyter的文件保存API。

请参阅https://github.com/googledatalab/datalab/issues/1324

解决方法是,如果图像在笔记本中非常大,则不会实际保存图像,只有在他们的某个地方托管的网址时才会保存这些图片。或者,如果您可以以某种方式压缩它们,目标是将笔记本的大小设置为可管理的数量。

最终,Datalab应该升级到使用notebook == 5.0.0,这解决了这个问题。请随意在该问题上表达您的+1。 :)

答案 1 :(得分:0)

我正面临类似的问题。对我有用的是,我将数据存储在Google云端存储中,仅从那里将数据读取到笔记本中。之后,datalab笔记本运行良好。

import google.datalab.storage as storage
import pandas as pd
from io import BytesIO

mybucket = storage.Bucket('$Bucket_name')
data_csv = mybucket.object('$file_name')

uri = data_csv.uri
%gcs read --object $uri --variable data

df = pd.read_csv(BytesIO(data))
df.head()