Question

我刚刚在生物学研究中选择了Pandas进行一些数据分析工作。结果我正在分析的一种蛋白质叫做'NA'。

我在列标题上有成对'HA，M1，M2，NA，NP ...'的矩阵，和“行标题”相同（对于可能读过这个的生物学家，我正在使用流感）。

当我直接从CSV文件将数据导入Pandas时，它会将“行标题”读为“HA，M1，M2 ......”，然后NA读取为NaN。有没有办法阻止这个？列标题很好 - 'HA，M1，M2，NA，NP等......'

Answer 1

以这种方式关闭NaN检测：pd.read_csv(filename, keep_default_na=False)

我最初建议使用na_filter=False来完成工作。但是，如果我理解下面杰夫的评论，这是一个更清洁的解决方案。

示例：

In [1]: pd.read_csv('test')
Out[1]:[4]: pd.read_csv('test', keep_default_na=False)
Out[4]:1   2
2   3

Answer 2

刚遇到这个问题 - 我为该列指定了一个str转换器，所以我可以在其他地方保留na： pd.read_csv(... , converters={ "file name": str, "company name": str})