Tensorflow TFDV不适用于特定的NaN值

时间:2019-01-16 19:39:11

标签: tensorflow tensorflow-data-validation

我正在使用Tensorflow数据验证从数据生成统计信息并推断要在TFX中输入的模式。

我找不到任何指定NaN值的选项,例如例如,在大熊猫中,有一个“ na_values”字段,可以在读取数据时将指定值视为NaN。

我查看了整个TFDV文档,但没有找到。

tfdv.generate_statistics_from_csv(
    data_location,
    column_names=None,
    delimiter=',',
    output_path=None,
    stats_options=options.StatsOptions(),
    pipeline_options=None
)

options.StatsOptions()是用于生成统计信息的选项,例如sample_count,sample_rate等...

对我来说,读取缺少值的数据没有意义,将数据另存为Csv或TFRecord,然后导入TFDV以生成统计信息。

1 个答案:

答案 0 :(得分:0)

在TFDV 0.13.0中,可以使用tfdv.generate_statistics_from_dataframe方法从熊猫数据框生成统计信息。如果您的数据适合存储在内存中,则可以使用pandas.read_csv方法读取CSV文件(通过指定na_values),然后使用上述方法生成统计信息。