Question

我是TensorFlow的新手，正在尝试对我的数据集执行二进制分类。从本质上讲，我试图预测一件物品是否具有吸引力＆＃34;或者＆＃34;没有吸引力＆＃34;。

我已将我的训练集简化为类似的内容：

lamp;      20cm;  description: lightbulb, switch; attractive 
lightbulb; 3cm;   description: filament;          attractive 
switch;    1cm;   description: switch;            not attractive
filament;  0.5cm; description: -;                 attractive

功能说明：

第1列是项目的名称
第二列是项目的宽度
第3列是与该项目相关的文本列表。请注意，此列表可以是NULL或具有＆gt; 0项。另请注意，列表中的每个项目只会在数据集中其中一行的第一列中出现一次。

第4栏显示了训练数据的分类。

从我在线阅读的内容来看，如果我没有弄错，上述数据就不能像这样使用 - 需要将其转换为TensorFlow可读的格式。

注意：我不想进行任何文本分类，因为预测应该基于其属性（宽度）及其与其他项的关系。

我尝试使训练集可用（？） - 通过使用项ID对每个项进行编码，然后使用数组来表示关系：

1; 20;  [2, 3]; 1 
2; 3;   [4];    1 
3; 1;   [3];    0
4; 0.5; [];     1

测试集：

5; 12;  [2, 2]; ?

我假设没有必要创建一个单独的文件，其中包含ID到项目名称的映射，因为我之前提到过，项目名称本身与假设无关。结果？

问题：

如果将上述格式放入CSV文件，那好吗？
有什么方法可以链接＆＃34;第3列到第1列？因此，TensorFlow知道第3列实际上是第一列中的键数组。
任何可能有用的资源/教程？我已经阅读了Iris花卉示例的入门指南（但它们的功能都是小数 - 没有用户指定的与其他功能的关系）。

Answer 1

关于1.，TF完全支持csv

对于2和3，您应该查看the documentation for tf feature columns。

将一个要素列链接到另一个要素列

1 个答案: