Question

我第一次使用EC2来运行机器学习任务。我已经设置了我的EC2实例，我的python脚本按预期运行。但是，脚本需要在运行期间读取3个大型csv文件。

我已将csv文件上传到Google云端硬盘。我希望能够通过我的ec2脚本读取数据，如下所示：

  dataframe = pd.read_csv('google_drive_file', index_col = 0)

任何帮助表示感谢。

更新：我找到了这个建议，这是正确的吗？

from StringIO import StringIO  # got moved to io in python3.

import requests
r = requests.get('https://docs.google.com/spreadsheet/ccc?key=0Ak1ecr7i0wotdGJmTURJRnZLYlV3M2daNTRubTdwTXc&output=csv')
data = r.content

df = pd.read_csv(StringIO(data), index_col = 0)

Answer 1

这对我有用。我最终使用了S3。确保正确设置S3存储桶的权限。然后，简单地说：

conn = boto.connect_s3('access_key', 'secret_key')
bucket = conn.get_bucket('bucket_name')
df = pd.read_csv('file_address', index_col=0)

使用Python EC2脚本在Google云端硬盘上加载csv文件

1 个答案: