从.csv文件读取数据

时间:2019-04-29 00:40:21

标签: python pandas machine-learning nlp

因此,我有一个有关NLP问题的数据集,其中包含以下格式的数据: 代码,正文,结果

2552272216,蜂蜜会把黑发变成白色吗?,[白发]

2552210209,“您好医生,我的母亲因过分考虑家庭问题而被诊断出患有抑郁症,这导致她的抑郁症导致了其他一些心理问题,并使她的病情恶化,导致了中风她去世了。现在我的问题是这件事会发生在我身上还是在某个时候发生在我姐姐身上。”,[抑郁症]

使用pd.read_csv我使用','作为分隔符来读取这些行,但是我希望将最后一列作为列表而不是string读取。 请帮忙!

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import json
# Importing the dataset
dataset = pd.read_csv('case_study_lybrate.csv', delimiter=',',
                     quoting=1, skipinitialspace=True)

1 个答案:

答案 0 :(得分:0)

从Pandas文档中看来,您需要设置data参数。

  

dtype:类型名称或列的字典->类型,可选   数据或列的数据类型。例如。 {“ a”:np.float64,“ b”:np.int32,“ c”:“ Int64”}将str或object与合适的na_values设置一起使用,以保留而不解释dtype。如果指定了转换器,则会将它们应用于dtype转换。

例如:

dataset = pd.read_csv('case_study_lybrate.csv', delimiter=',',
                     quoting=1, skipinitialspace=True,
                     dtype={'code': str, 'body': str, 'result': list()})