Pandas& amp; SQL。没有找到特定于此配置的答案,并且不确定在将pandas引入混合时是否适用标准SQL智慧。
在~6gb .csv块中进行涉及~300 gb数据的学校项目。
学校建议通过Dropbox同步数据,但对于一个4人团队来说这似乎不切实际。
因此,目前的解决方案是AWS EC2& RDS实例(MySQL,我认为它将是1表)。
在我们开始设置之前我想确认一下:
如果多个用户正在使用(偶尔修改)数据,这种安排可以管理冲突吗?例如,如果用户A使用pandas从查询构造数据帧,那么如果用户B尝试使用它们,那么该查询中的记录是否会被冻结?
我的假设是帧中的数据在内存中,并且SQL数据库中的记录可以被其他人自由修改,直到数据帧被写回db,但我希望我要么错误或这里有一个简单的解决方案(比如每个用户或其他东西的随机样本查询)。
答案 0 :(得分:0)
pandas
DataFrame对象不直接与db交互。一旦你读到它就在本地内存。您必须使用DataFrame.to_sql
之类的方法将更改写回MySQL DB。有关读取和写入SQL表的更多信息,请参阅pandas
文档here。