我有一个pandas DataFrame,我想让它存储数字向量。我可以轻松地做到这一点。但是,如果我想将其序列化为文件然后将其检索回来,则会变得非常混乱
以下是与我的代码类似的代码段
import pandas as pd
import numpy as np
df = pd.DataFrame(columns=['vector', 'other_col'])
for _ in range(1,10):
df.loc[len(df), 'vector'] = np.random.rand(2000)
df.to_csv('example.csv', index=False)
data = pd.read_csv('example.csv')
数据看起来像这样
vector other_col
0 [ 0.44182594 0.38653563 0.55276495 ..., 0.6... NaN
1 [ 0.15619965 0.97775275 0.6904491 ..., 0.2... NaN
2 [ 0.80848747 0.66653121 0.37620277 ..., 0.5... NaN
3 [ 0.41350165 0.40033263 0.39881338 ..., 0.3... NaN
4 [ 0.17602205 0.54945447 0.49621991 ..., 0.6... NaN
5 [ 0.75765499 0.09553434 0.14637461 ..., 0.2... NaN
正如你可以看到的那样,存储到文件的向量是你在stdout中看到的实际字符串,如果你试图打印数据帧的内容
我有一些解决方法,我只是好奇是否可以使用该特定解决方案