第二次更新:用户@Matt B确认为错误。请参阅下面的答案以获取更多详细信息。
更新: @waTeim已经证明可以编写和读取包含 date 类型列的DataFrame(在我的设置中确认)。这很重要,因为这意味着Julia可以编写和读取数据框列中的某些复合类型。但是,类型 datetime (与 date 类型不同)的情况仍然会引发错误,因此此时问题仍然没有答案。
在Julia中,使用HDF5和JLD软件包,可以使用以下方法在.jld文件中保存和加载DataFrame:
#Preamble
using HDF, JLD, DataFrames
filePath = "/home/colin/Test.jld";
#Save the data-frame
fid1 = jldopen(FP, "w");
write(fid1, "MyDataFrame", MyDataFrame);
close(fid1);
#Come back later and load the data-frame
fid1 = jldopen(FP, "r");
X = read(fid1, "MyDataFrame");
close(fid1);
这很好用,只要数据框的列都是基础Julia类型的向量,如Float64
或Int64
。但是,在实践中,我们通常希望数据框的第一列是datetime
,它不是基本类型(尽管可能在将来的版本中成为一个)。在这种情况下,上面的代码在read
操作中失败了,带有很长的错误消息(如果有人在评论中提问,我将把它添加到底部)。根据JLD包的文档,我在保存时尝试了以下操作:
#Save the data-frame
fid1 = jldopen(FP, "w");
addrequire(fid1, "/home/colin/.julia/v0.2/DataFrames/src/dataframe.jl")
addrequire(fid1, "/home/colin/.julia/v0.2/Datetime/src/Datetime.jl")
write(fid1, "MyDataFrame", MyDataFrame);
close(fid1);
但这没有帮助。
我做了一些蠢事,或者这个功能根本不可用?
注意:包含HDF5标签,因为JLD包使用它。
答案 0 :(得分:6)
当缺少HDF5对特定Julia数据类型的支持时,可以预期会出现此错误。在这种情况下,它不是使用Datetime的DataFrames,而是缺乏对Datetime本身类型的支持。显然,当库因任何原因无法加载类型时(see here和here too用于其他示例)。每种类型的确切原因和修复方式都不同,但报告错误会导致及时修复(见下文)。
HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
#000: H5Dio.c line 182 in H5Dread(): can't read data
major: Dataset
minor: Read failed
#001: H5Dio.c line 438 in H5D__read(): unable to set up type info
major: Dataset
minor: Unable to initialize object
#002: H5Dio.c line 939 in H5D__typeinfo_init(): unable to convert between src and dest datatype
major: Dataset
minor: Feature is unsupported
#003: H5T.c line 4525 in H5T_path_find(): no appropriate function for conversion path
major: Datatype
minor: Unable to initialize object
我建议您现在迁移到Julia版本0.3,因为它现在处于候选版本状态并更新您的软件包存储库。我的设置不同;我使用的是不同版本的HDF5,JLD,DataFrames和Datetime。但话虽如此,我所做的两个重大改变是在 addrequire 的调用中简单地指出模块名称而不是文件名。使用 @read 和 @write 宏而不是相应的函数,因为后者似乎是错误的。
Version 0.3.0-rc1+4263 (2014-07-19 02:59 UTC)
Pkg.status()
- DataFrames 0.5.7
- HDF5 0.2.25
- Datetime 0.1.6
创建数据文件
using HDF5,JLD,DataFrames,Datetime
testFile = jldopen("test.jld","w")
addrequire(testFile,"DataFrames")
addrequire(testFile,"Datetime")
df = DataFrame()
df[:column1] = today()
@write testFile df
close(testFile)
重启朱莉娅并阅读......
julia> using HDF5,JLD,DataFrames,Datetime
julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld
julia> @read testFile df
1x1 DataFrame
|-------|------------|
| Row # | column1 |
| 1 | 2014-07-19 |
julia> df[:column1]
1-element DataArray{Date{ISOCalendar},1}:
2014-07-19
事实上,我可以确认尝试存储Datetime失败了,使用repo中的最新版本修复了问题。
HDF5 0.2.25+ master
如果仅通过将今天()更改为现在()
来修改上述内容df[:column1] = now()
然后是以下
julia> using HDF5,JLD,DataFrames,Datetime
julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld
julia> @read testFile df
1x1 DataFrame
|-------|-------------------------|
| Row # | column1 |
| 1 | 2014-07-26T03:38:45 UTC |
但看起来,尽管this fix,类型复合体也会发生与Datetime相同的一般性错误消息。
c = 1 + im;
@write testFile c
此版本也支持复杂。最初似乎问题是缺乏对类型复杂的支持,但它更可能是从 1 + im 初始化复杂的特殊问题;而不是 1.0 + im 。
- HDF5 0.2.26
julia> using HDF5, JLD
julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld
julia> @read testFile c
1 + 1im
答案 1 :(得分:2)
正如我在上面的评论中所指出的,行为是a bug现在已经been fixed。在版本0.2.26被标记之前,您可以使用Pkg.checkout("HDF5")
来获取此错误修复。
但为了更多地回答这个问题,我将更多地描述这个问题并提供一个潜在的解决方法。 Date
和DateTime
类型都是very similar definitions的比特类型。在HDF5.jl包中保存和加载bitstype是一个相对较新的功能;它只支持past month(标记为版本0.2.24和0.2.25)。
这些版本有一个错误,其中bitstypes的类型名称不会与其模块名称一起保存(作为完全限定的typename)。您可以在import
和using
:
julia> using HDF5, JLD # version 0.2.25
julia> import Datetime
julia> save("today.jld","t",Datetime.today()) # today() returns a `Datetime.Date`
julia> load("today.jld") # But it was saved as just a `Date`, not a `Datetime.Date`
# so HDF5 cannot find the definition
HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
#000: H5Dio.c line 182 in H5Dread(): can't read data … # backtrace truncated
julia> using Datetime # Bring `Date` into the `Main` namespace
julia> load("today.jld") # now it works!
Dict{Union(UTF8String,ASCIIString),Any} with 1 entry:
"t" => 2014-07-25
因此,当您要保存DateTime
对象时,它会被Calendar
和以及时区Offset
参数化。但是Offset
类型不是从Datetime包导出的......它们中有很多!但是,大多数DateTime只使用Zone0
:UTC。因此,如果您使用HDF5.jl版本0.2.24-25保存了DateTime数据,则可以通过手动将这些类型“导出”到主命名空间中来恢复它。
julia> save("now.jld","n",now())
julia> load("now.jld")
HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
#000: H5Dio.c line 182 in H5Dread(): can't read data … # truncated
julia> const Zone0 = Datetime.Zone0;
julia> load("now.jld")
Dict{Union(UTF8String,ASCIIString),Any} with 1 entry:
"n" => 2014-07-25T13:45:45 UTC