如何使用python控制Hadoop-streaming中分割和推送数据到映射器?

时间:2016-09-28 15:14:25

标签: python hadoop hadoop-streaming

以下列形式给出数据框df1

u1_id    u2_id       
a1       a2       
a3       a5
a2       a4
...

以下格式的另一个数据框df2

u_id     p
1        (1, 2, 4, 10, 13, 14)
2        (5, 6, 12, 1, ...)
...

u1_id中同一行中的u2_iddf1用于成对相似性度量,p是用户属性。我想分割工作并将其发送给n映射器。以下是详细步骤:

  1. df1拆分为n个部分。对于每个用户,应将p两个用户的相应df1_n添加到u1_id u2_id u1_p u2_p a1 a2 (1, 2, 4, 10, 13, 14) (5, 6, 12, 1, ...) a3 a5 (2, 3, 6) (1, 3, 4, 8) a2 a4 (4, 6, 7, 8) (1, 2, 3) ... 。所以它会是这样的:

    vbs/bat

    并将其发送给一个映射器。

  2. 映射器只是将数据帧发送到reducer。

  3. 减速器测量相似度。结果合并并排序。
  4. 难点在于我不知道如何手动将数据发送到映射器。请你帮助我好吗?

0 个答案:

没有答案