我第一次使用EC2来运行机器学习任务。我已经设置了我的EC2实例,我的python脚本按预期运行。但是,脚本需要在运行期间读取3个大型csv文件。
我已将csv文件上传到Google云端硬盘。我希望能够通过我的ec2脚本读取数据,如下所示:
dataframe = pd.read_csv('google_drive_file', index_col = 0)
任何帮助表示感谢。
更新:我找到了这个建议,这是正确的吗?
from StringIO import StringIO # got moved to io in python3.
import requests
r = requests.get('https://docs.google.com/spreadsheet/ccc?key=0Ak1ecr7i0wotdGJmTURJRnZLYlV3M2daNTRubTdwTXc&output=csv')
data = r.content
df = pd.read_csv(StringIO(data), index_col = 0)
答案 0 :(得分:0)
这对我有用。我最终使用了S3。确保正确设置S3存储桶的权限。然后,简单地说:
conn = boto.connect_s3('access_key', 'secret_key')
bucket = conn.get_bucket('bucket_name')
df = pd.read_csv('file_address', index_col=0)