将utf-8编码的文本加载到H2OFrame中

时间:2018-12-21 11:09:07

标签: text utf-8 h2o

我有一个utf-8编码的.csv文件,我使用python 3.7将其加载到H2O.ai

h2o.load_dataset("my.csv")

斯堪的纳维亚字符无法正确显示。如果将H2OFrame保存到磁盘并在使用utf-8的编辑器中打开,同样的问题仍然存在。如何使H2O.ai了解utf-8?

非常感谢。

1 个答案:

答案 0 :(得分:0)

我使用您提供的字符进行了快速测试,并且能够使所有内容正确显示在H2O-3版本3.20.0.8和python 3.5上,因此希望较新的版本也可以使用。

In [7]: dd = ["Tässä vähän tekstiä åäö"]

In [8]: h2o.H2OFrame(dd)
Parse progress: |█████████████████████████████████████████████████████████████████████████████| 100%
Out[8]:
C1
-----------------------
Tässä vähän tekstiä åäö

[1 row x 1 column]

我还创建了一个以字符串为第一个单元格的csv,它似乎可以正确显示。

In [12]: hhf = h2o.import_file('Scandinavians.csv', header=-1)
Parse progress: |████████████████████████████████████████████████████████████████████████████| 100%

In [13]: hhf
Out[13]:
C1      C2     C3       C4
------  -----  -------  ----
Tässä  vähän  tekstiä  åäö

[1 row x 4 columns].

(如果这些代码段无济于事,我可以尝试更新我的回复)