我正在使用Tensorflow数据验证从数据生成统计信息并推断要在TFX中输入的模式。
我找不到任何指定NaN值的选项,例如例如,在大熊猫中,有一个“ na_values”字段,可以在读取数据时将指定值视为NaN。
我查看了整个TFDV文档,但没有找到。
tfdv.generate_statistics_from_csv(
data_location,
column_names=None,
delimiter=',',
output_path=None,
stats_options=options.StatsOptions(),
pipeline_options=None
)
options.StatsOptions()是用于生成统计信息的选项,例如sample_count,sample_rate等...
对我来说,读取缺少值的数据没有意义,将数据另存为Csv或TFRecord,然后导入TFDV以生成统计信息。
答案 0 :(得分:0)
在TFDV 0.13.0中,可以使用tfdv.generate_statistics_from_dataframe方法从熊猫数据框生成统计信息。如果您的数据适合存储在内存中,则可以使用pandas.read_csv方法读取CSV文件(通过指定na_values),然后使用上述方法生成统计信息。