我正在努力将几个数据帧合并为扁平化格式,以便在Keras机器学习算法中使用:
我的挑战围绕着2个辅助表的不同格式,这些辅助表的排序更像是列表(它们与主表相关联,并通过共享密钥相互关联)。
因为我想要的输出是包含来自三个数据帧的共享数据的单行(例如,没有包含匹配行的右连接表)...我对如何执行此操作感到茫然。它可能是一个神奇的组合,包括拆散或枢轴......
关于我如何一起按摩这些的任何想法或建议(或者如果我问错误的问题并且应该简单地将它们用作ML算法的多个输入,请直接指导我!)
谢谢!
编辑:在评论中的(非常合理的)请求中,这里是一些要操作的示例数据:
import pandas as pd
import numpy as np
priceDf = pd.DataFrame(np.arange(30).reshape((6,5))
.transpose(), columns=['Key', 'volume', 'high', 'low', 'price', 'price_in_5_minutes'])
tradeBookDf = pd.DataFrame(np.append(np.repeat(np.arange(4), 4),(np.random.randint(5, size=48)))
.reshape((4,16)).transpose(), columns=['Key','size', 'price', 'bid_ask_bit'])
recentTradesDf = pd.DataFrame(np.append(np.repeat(np.arange(4), 4),(np.random.randint(5, size=48)))
.reshape((4,16)).transpose(), columns=['Key','price', 'quantity', 'timestamp'])
目标是输出与密钥相关的每一条数据的单行。例如:
| Key | volume | high | low | price | price_in_5_minutes | trade1_price | trade1_quantity | trade1_timestamp | trade2.... | book1_size | book1_price | book1_bid_ask_bit | book2.... |