如何使用Tensorflow查找其他数据集中的值?

时间:2017-09-14 03:13:49

标签: python pandas csv tensorflow

我有2个csv数据源。我需要在构建模型之前进行一些数据格式化。

===============================================

数据源1: Plant.csv

不同植物的特征。

PlantID, INT /
PlantName, STR /
Color, STR / 
Size, FLOAT /
Cost, FLOAT /
Category, INT /
Weight, FLOAT /
Expire, INT /
STATUS, INT 

数据源2: [201601.csv,201602.csv,201603.csv ....]

植物月销售额

PlantID, INT /
SalesPerson, STR /
Date, DATETIME /
Qty, INT /
Price, FLOAT /
Gardener, STR /
Package1, BOOL /
Package2, BOOL /
Package3, BOOL

===============================

现在我要将这些文件加入到这样的文件中:

PlantID, INT /
PlantName, STR /
Color, STR / 
Size, FLOAT /
Cost, FLOAT /
Category, INT /
Weight, FLOAT /
Expire, INT /
STATUS, INT /
SalesPerson, STR /
Date, DATETIME /
Qty, INT /
Price, FLOAT /
Gardener, STR /
Package1, BOOL /
Package2, BOOL /
Package3, BOOL

将PlantID视为关键。

每月有数百万的销售记录。

有人可以建议如何使用tensorflow吗?

1 个答案:

答案 0 :(得分:0)

Tensorflow不适用于加入数据库。如果你真的想在python中使用它,你可以使用pandas。

import pandas as pd


df1 = pd.read_csv('Plant.csv')
df1.set_index(['PlantID'])
df2 = pd.read_csv('201601.csv')
df2.set_index(['PlantID'])

df3 = pd.concat([df1, df2], axis=1)

Tensorflow 用于创建计算图,然后有效地运行它们。通常,它会假设此图的输入已经是一个numpy数组。

pandas 用于处理python中的关系数据,就像在关系数据库中一样。虽然如果您可以选择使用查询语言在实际的关系数据库中工作,这仍然比pandas更具计算效率。