使用第二个数据集在张量流中向数据集添加标签

时间:2018-03-28 15:10:48

标签: python tensorflow data-processing

Tensorflow初学者。

我的数据分为两个csv文件,a.csvb.csv,与两个不同的事件ab相关。这两个文件都包含有关用户的信息,特别是,它们都有user_id字段,我可以使用它来合并数据集。

我想训练一个模型,根据b的特征来预测a发生概率。为此,我需要将标签列'has_b_happened'附加到从A检索到的数据a.csv。在scala spark中,我会做类似的事情:

val joined = A
    .join(B.groupBy("user_id").count, A("user_id") === B("user_id"), "left_outer")
    .withColumn("has_b_happened", col("count").isNotNull.cast("double"))

然而,在tensorflow中,我没有找到任何类似于spark的连接。有没有办法达到相同的结果,或者我是否尝试使用错误的工具?

0 个答案:

没有答案