我目前具有以下格式的用户交易历史数据集:
+---------+------------+------------+
| user_id | order_date | product_id |
+---------+------------+------------+
| 1 | 20190101 | 123 |
| 1 | 20190102 | 331 |
| 1 | 20190301 | 1029 |
+---------+------------+------------+
我正在尝试转换要用于Item2Vec模型的数据集-我认为它必须看起来像这样:
+---------+-------------------+
| user_id | seq_vec |
+---------+-------------------+
| 1 | [123, 331, 1029] |
-------------------------------
我假设通过查看Word2Vec(https://spark.apache.org/docs/2.2.0/ml-features.html#word2vec)的示例,必须以这种方式格式化数据集。
如果我按product_id
分组,是否有内置的PySpark方法根据user_id
列中的值创建矢量?
答案 0 :(得分:1)
dispatchLocation
可以解决问题
collect_list