Question

我尝试了以下几种变化：

f = CSV.File(file, delim="\t", 
             header=["C" * string(i) for i in 1:6], 
             types=Dict("C1"=>CategoricalArray))

在熊猫中，我将使用字符串“ category”来描述数据类型。

或者，如果我想从头开始构建数据框，我可以说

df = DataFrame(Chromosome = CategoricalArray[], Start = Int64[], End = Int64[], Name = Int64[], Score = Int64[], Strand = CategoricalArray[])

我已经尝试过，但是随后出现错误：

ERROR: LoadError: ArgumentError: Error adding chr8 to column :Chromosome. Possible type mis-match.

Answer 1

像Bogumil说的，最好的办法是使用该标志

CSV.read(..., categorical = true)

对于大多数数据都是唯一的列，这会增加开销，但这是目前最好的方法。