我有一个非常大的CSV文件(数十Gigas),其中包含以下列的Web日志:user_id, time_stamp, category_clicked
。我必须建立一个得分手来识别用户喜欢和不喜欢的类别。
当我必须使用pandas.read_csv
加载CSV时出现问题。实际上,我想使用chunksize
参数来拆分它,但是因为我必须在groupby
上进行“user_id
操作”才能进行计算(我不这样做)希望我的分数太微不足道了),我不知道如何巧妙地分割我的数据,因为如果我只使用chunsize,我将无法正确使用groupby。
简单来说,我想为每个用户进行计算,这取决于时间戳和点击的类别。例如,如果一个月前他的点击发生,给用户1分,两周前发生2点,如果上周发生4点,则给予4分。
我该怎么办?我错过了什么?