使用熊猫的大数据

时间:2014-08-19 15:39:03

标签: python csv pandas

我有一个非常大的CSV文件(数十Gigas),其中包含以下列的Web日志:user_id, time_stamp, category_clicked。我必须建立一个得分手来识别用户喜欢和不喜欢的类别。

当我必须使用pandas.read_csv加载CSV时出现问题。实际上,我想使用chunksize参数来拆分它,但是因为我必须在groupby上进行“user_id操作”才能进行计算(我不这样做)希望我的分数太微不足道了),我不知道如何巧妙地分割我的数据,因为如果我只使用chunsize,我将无法正确使用groupby。

简单来说,我想为每个用户进行计算,这取决于时间戳和点击的类别。例如,如果一个月前他的点击发生,给用户1分,两周前发生2点,如果上周发生4点,则给予4分。

我该怎么办?我错过了什么?

0 个答案:

没有答案