我有2个csv数据源。我需要在构建模型之前进行一些数据格式化。
===============================================
数据源1: Plant.csv
不同植物的特征。
PlantID, INT /
PlantName, STR /
Color, STR /
Size, FLOAT /
Cost, FLOAT /
Category, INT /
Weight, FLOAT /
Expire, INT /
STATUS, INT
数据源2: [201601.csv,201602.csv,201603.csv ....]
植物月销售额
PlantID, INT /
SalesPerson, STR /
Date, DATETIME /
Qty, INT /
Price, FLOAT /
Gardener, STR /
Package1, BOOL /
Package2, BOOL /
Package3, BOOL
===============================
现在我要将这些文件加入到这样的文件中:
PlantID, INT /
PlantName, STR /
Color, STR /
Size, FLOAT /
Cost, FLOAT /
Category, INT /
Weight, FLOAT /
Expire, INT /
STATUS, INT /
SalesPerson, STR /
Date, DATETIME /
Qty, INT /
Price, FLOAT /
Gardener, STR /
Package1, BOOL /
Package2, BOOL /
Package3, BOOL
将PlantID视为关键。
每月有数百万的销售记录。
有人可以建议如何使用tensorflow
吗?
答案 0 :(得分:0)
Tensorflow不适用于加入数据库。如果你真的想在python中使用它,你可以使用pandas。
import pandas as pd
df1 = pd.read_csv('Plant.csv')
df1.set_index(['PlantID'])
df2 = pd.read_csv('201601.csv')
df2.set_index(['PlantID'])
df3 = pd.concat([df1, df2], axis=1)
Tensorflow 用于创建计算图,然后有效地运行它们。通常,它会假设此图的输入已经是一个numpy数组。
pandas 用于处理python中的关系数据,就像在关系数据库中一样。虽然如果您可以选择使用查询语言在实际的关系数据库中工作,这仍然比pandas更具计算效率。