TensorFlow-通过tf.data.Dataset API进行文本数据扩充

时间:2018-12-03 08:17:55

标签: python tensorflow tensorflow-datasets

我正在尝试完成对tf.data.Dataset对象中的输入文本执行一些扰动的任务。 例如,我可以输入以下原始数据:

raw_data.txt

false

对于每个样本,我想要对输入进行一些扰动

a
ab
abc

这种扰动的逻辑必须是随机的并且相当复杂。

然后,必须对扩展输入进行一次热标记:

"a"   => "ab"
"ab"  => "aab"
"abc" => "abcb"

到目前为止,我尝试将原始数据加载到TextLineDataset中,并希望使用.map()方法来扩充我的示例:

{"a": 0, "b": 1, "c": 2}

"ab" => [[1,0,0],[0,1,0]]

问题是,到目前为止,我还没有找到Tensorflow操作来正确完成此任务。

这是正确的方法吗?如果是这样,实现此目标的最佳实践是什么?

0 个答案:

没有答案