使用TensorFlow加载Boston住房数据集

时间:2016-12-27 20:21:22

标签: machine-learning tensorflow regression linear-regression logistic-regression

我正在尝试理解代码示例Deep Neural Network Regression with Boston Data

数据集描述为here。它有14个属性。

该示例使用以下代码加载数据。

# Load dataset
boston = learn.datasets.load_dataset('boston')
x, y = boston.data, boston.target

当我想了解有关xy的更多信息时,我有以下内容。

>>> type(x)
<type 'numpy.ndarray'>
>>> type(y)
<type 'numpy.ndarray'>
>>> x.shape
(506, 13)
>>> y.shape
(506,)
>>> 

我的问题:

  1. 为什么数据集被分为两个对象,一个具有13个属性,另一个具有1?
  2. 这个部门的基础是什么?

1 个答案:

答案 0 :(得分:1)

boston.data中的13列是您的功能。 boston.target中的1列是您的目标。完成拆分的原因是因为大多数情况下,机器学习算法需要将特征和目标作为单独的数据结构。 load_datasets函数只是通过拆分MDEV列使您更容易,因为大多数时候,这是人们想要预测的功能。换句话说,load_data集的设计者假设您想尝试根据其他13个特征找到中位房价。

你不必这样做。您可以选择任何功能作为目标。假设你想预测RM,每个住宅的平均房间数。只需将MDEV列合并回boston.data并拆分RM即可。然后使用RM作为目标。

顺便说一下,你提供的链接已被破坏,所以我谷歌了,并想出了这个Boston Housing price tutorial。如果你想在tensorflow中进行回归

,它看起来非常完整