如何在大型数据库表中使用pandas_profiling

时间:2019-06-12 15:34:43

标签: python pandas pandas-profiling

我正在尝试使用pandas_profiling来分析表。 它有大约20列,其中大多数是浮动的,几乎有300万条记录。

我遇到以下错误:

  

跟踪(最近一次通话最近):文件“ V:\ Python \ prof.py”,行   53在       如果 name ==“ main ”:main()main中的文件“ V:\ Python \ prof.py”,第21行       df = pd.read_sql(query,sql_conn)文件“ C:\ Users \ linus \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pandas \ io \ sql.py”,   380行,在read_sql中       chunksize = chunksize)文件“ C:\ Users \ linus \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pandas \ io \ sql.py”,   第1477行,在read_query中       数据= self._fetchall_as_list(光标)文件“ C:\ Users \ linus \ AppData \ Local \ Programs \ Python \ Python37 \ lib \ site-packages \ pandas \ io \ sql.py”,   _fetchall_as_列表中的第1486行       结果= cur.fetchall()MemoryError

我尝试了更少的记录。

是否有办法绕过此错误?看来这是内存限制。 我们可以用另一种方式吗?还是Python无法做到?

感谢您的帮助

1 个答案:

答案 0 :(得分:0)

如果您能够提供信息以便我们可以复制错误,则可以解决此问题。我建议在github page上发布一个问题。

披露:我是该软件包的合著者。