使用Python EC2脚本在Google云端硬盘上加载csv文件

时间:2016-06-20 06:36:48

标签: python google-drive-api

我第一次使用EC2来运行机器学习任务。我已经设置了我的EC2实例,我的python脚本按预期运行。但是,脚本需要在运行期间读取3个大型csv文件。

我已将csv文件上传到Google云端硬盘。我希望能够通过我的ec2脚本读取数据,如下所示:

  dataframe = pd.read_csv('google_drive_file', index_col = 0)

任何帮助表示感谢。

更新:我找到了这个建议,这是正确的吗?

from StringIO import StringIO  # got moved to io in python3.

import requests
r = requests.get('https://docs.google.com/spreadsheet/ccc?key=0Ak1ecr7i0wotdGJmTURJRnZLYlV3M2daNTRubTdwTXc&output=csv')
data = r.content

df = pd.read_csv(StringIO(data), index_col = 0)

1 个答案:

答案 0 :(得分:0)

这对我有用。我最终使用了S3。确保正确设置S3存储桶的权限。然后,简单地说:

conn = boto.connect_s3('access_key', 'secret_key')
bucket = conn.get_bucket('bucket_name')
df = pd.read_csv('file_address', index_col=0)