Pandas Dataframe将我的字典变成了字符串

时间:2018-09-29 02:46:04

标签: python string pandas dictionary dataframe

我有一个数据框,每个单元格都保存一个字典。在导出数据框之前,我可以将每个单元格称为一个单独的数据框。

但是,将数据框保存为csv并重新打开后,每个单元格都变成了字符串,因此我无法再将调用的单元格转换为数据框。

The output should look like this

After saving the dataframe as csv, dictionary became string

在我对Stackoverflow进行研究之后,我感到很惊讶,没有多少人遇到与我相同的问题。我想知道我的做法是否错误。我只发现了两个与我的问题有关的帖子。这是一个(dict objects converting to string when read from csv to dataframe pandas python)。

我基本上尝试了json,ast.literal_eval和yaml,但是这些都不能解决我的问题。

这是我代码的第一部分(我创建了这四个列表来存储我从api调用的数据)

tickers4 = []
last_1st_bs4 = []
last_2nd_bs4 = []
last_3rd_bs4 = []

for i in range(len(tickers)):
    try:
        ticker = tickers.loc[i, 'ticker']
        ann_yr = 2018

        yr_1st = intrinio.financials_period(ticker, str(ann_yr-1), fiscal_period='FY', statement='balance_sheet')
        yr_2nd = intrinio.financials_period(ticker, str(ann_yr-2), fiscal_period='FY', statement='balance_sheet')
        yr_3rd = intrinio.financials_period(ticker, str(ann_yr-3), fiscal_period='FY', statement='balance_sheet')

        tickers4.append(ticker)
        last_1st_bs4.append(yr_1st)
        last_2nd_bs4.append(yr_2nd)
        last_3rd_bs4.append(yr_3rd)

        print('{} Feeding data {}'.format(i, ticker))

    except:
        tickers4.append(ticker)
        last_1st_bs4.append(0)
        last_2nd_bs4.append(0)
        last_3rd_bs4.append(0)
        print('{} Error {}'.format(i, ticker))

第二部分:我将它们放入数据框并另存为csv

BS = pd.DataFrame()
BS['ticker'] = tickers4
BS['BS_2017'] = last_1st_bs4
BS['BS_2016'] = last_2nd_bs4
BS['BS_2015'] = last_3rd_bs4
BS.to_csv('Balance_Sheet_2015_2017.csv')

现在,我需要在另一个笔记本中阅读此csv

BS = pd.read_csv('./Balance_Sheet_2015_2017.csv', index_col=0)
BS.loc[9, 'BS_2017']

这是我得到的结果: ' cashandequivalents shortterminvestments notereceivable \\\nyear \n2017 2.028900e+10 5.389200e+10 1.779900e+10 \n\n accountsreceivable netinventory othercurrentassets \\\nyear \n2017 1.787400e+10 4.855000e+09 1.393600e+10 \n\n totalcurrentassets netppe longterminvestments \\\nyear \n2017 1.286450e+11 3.378300e+10 1.947140e+11 \n\n othernoncurrentassets ... \\\nyear ... \n2017 1.817700e+10 ... \n\n commitmentsandcontingencies commonequity retainedearnings \\\nyear \n2017 0.0 3.586700e+10 9.833000e+10 \n\n aoci totalcommonequity totalequity \\\nyear \n2017 -150000000.0 1.340470e+11 1.340470e+11 \n\n totalequityandnoncontrollinginterests totalliabilitiesandequity \\\nyear \n2017 1.340470e+11 3.753190e+11 \n\n currentdeferredrevenue noncurrentdeferredrevenue \nyear \n2017 7.548000e+09 2.836000e+09 \n\n[1 rows x 30 columns]'

感谢您的帮助。

2 个答案:

答案 0 :(得分:0)

CSV不是用于保存字典的适当格式(老实说,将字典放入DataFrames并不是一个很好的数据结构)。您应该尝试将DataFrame写入json:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_json.html

答案 1 :(得分:0)

我曾经有过同样的错误。我通过使用DataFrame.to_pickle()而不是DataFrame.to_csv()来解决了这个问题。

CSV文件中的所有内容均为纯文本,甚至包括数值。当您将CSV文件加载到电子表格程序中时,有一些解析器会查找可识别为数字或日期的字符串,然后进行相应的转换。

CSV文件无法轻松保存更复杂的Python对象,但是如果将Python对象放在DataFrame中,Pandas不会抛出错误。它将它们转换为字符串表示形式。