Tensorflow初学者。
我的数据分为两个csv文件,a.csv
和b.csv
,与两个不同的事件a
和b
相关。这两个文件都包含有关用户的信息,特别是,它们都有user_id
字段,我可以使用它来合并数据集。
我想训练一个模型,根据b
的特征来预测a
发生概率。为此,我需要将标签列'has_b_happened'附加到从A
检索到的数据a.csv
。在scala spark中,我会做类似的事情:
val joined = A
.join(B.groupBy("user_id").count, A("user_id") === B("user_id"), "left_outer")
.withColumn("has_b_happened", col("count").isNotNull.cast("double"))
然而,在tensorflow中,我没有找到任何类似于spark的连接。有没有办法达到相同的结果,或者我是否尝试使用错误的工具?