如何处理大量数据

时间:2019-03-28 17:46:52

标签: python pandas data-science

我正在使用以下格式的表: enter image description here

我想用以下方法来绕开它:

<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs@1.0.0/dist/tf.min.js"></script>

问题是原始df中有80k条记录。 Google Colab和我的计算机都快用完了。有没有有效的方法来达到相同的结果?

编辑:我正在使用Cell_Phones_&_Accessories.txt.gz的数据。我无法计时,总是崩溃。

1 个答案:

答案 0 :(得分:0)

对我来说,现在有两个选择:

  1. 'review / score'列的类型还不是整数,我将尝试将其转换为int类型。

  2. 由于您只需要在数据透视表中运行一项操作,因此可以使用groupby

user_product_rating = df.groupby(['review/userID'])['product/productID'].mean()