以下列形式给出数据框df1
:
u1_id u2_id
a1 a2
a3 a5
a2 a4
...
以下格式的另一个数据框df2
:
u_id p
1 (1, 2, 4, 10, 13, 14)
2 (5, 6, 12, 1, ...)
...
u1_id
中同一行中的u2_id
和df1
用于成对相似性度量,p
是用户属性。我想分割工作并将其发送给n
映射器。以下是详细步骤:
将df1
拆分为n个部分。对于每个用户,应将p
两个用户的相应df1_n
添加到u1_id u2_id u1_p u2_p
a1 a2 (1, 2, 4, 10, 13, 14) (5, 6, 12, 1, ...)
a3 a5 (2, 3, 6) (1, 3, 4, 8)
a2 a4 (4, 6, 7, 8) (1, 2, 3)
...
。所以它会是这样的:
vbs/bat
并将其发送给一个映射器。
映射器只是将数据帧发送到reducer。
难点在于我不知道如何手动将数据发送到映射器。请你帮助我好吗?