python - 使用熊猫的大数据

我有一个非常大的CSV文件（数十Gigas），其中包含以下列的Web日志：user_id, time_stamp, category_clicked。我必须建立一个得分手来识别用户喜欢和不喜欢的类别。

当我必须使用pandas.read_csv加载CSV时出现问题。实际上，我想使用chunksize参数来拆分它，但是因为我必须在groupby上进行“user_id操作”才能进行计算（我不这样做）希望我的分数太微不足道了），我不知道如何巧妙地分割我的数据，因为如果我只使用chunsize，我将无法正确使用groupby。

简单来说，我想为每个用户进行计算，这取决于时间戳和点击的类别。例如，如果一个月前他的点击发生，给用户1分，两周前发生2点，如果上周发生4点，则给予4分。

我该怎么办？我错过了什么？

使用熊猫的大数据

0 个答案: