尝试训练数据时出现文本错误

时间:2019-10-05 09:27:25

标签: nlp stanford-nlp training-data

在尝试从deeppavlov模型读取和馈送csv数据BasicClassificationDatasetReader时,获取ValueError:“文本”

从deeppavlov导入dataset_readers

dat = dataset_readers.basic_classification_reader.BasicClassificationDatasetReader() l = dat.read(“ C:\ Users \ Anna \ Desktop \ NLP \ test”,url =无,格式='csv',sep =',',标头= 1)

TypeError跟踪(最近一次通话) 〜\ Anaconda3 \ lib \ site-packages \ pandas \ core \ indexes \ base.py in get_value(self,series,key)    4380试试: -> 4381返回libindex.get_value_box(s,key)    4382除了IndexError:

pandas._libs.index.get_value_box()中的

pandas / _libs / index.pyx

pandas._libs.index.get_value_at()中的

pandas / _libs / index.pyx

pandas._libs.util.get_value_at()中的pandas / _libs / util.pxd

pandas._libs.util.validate_indexer()中的

pandas / _libs / util.pxd

TypeError:“ str”对象不能解释为整数

在处理上述异常期间,发生了另一个异常:

KeyError跟踪(最近一次通话最近)  在       2       3天= dataset_readers.basic_classification_reader.BasicClassificationDatasetReader() ----> 4 l = dat.read(“ C:\ Users \ Anna \ Desktop \ NLP \ test”,url = None,格式='csv',sep =',',标头= 1,名称= [ 'x','y'])

〜\ Anaconda3 \ lib \ site-packages \ deeppavlov \ dataset_readers \ basic_classification_reader.py以read(self,data_path,url,format,class_sep,* args,** kwargs)     如果class_sep为None,则为100:     101#每个样本都是一个元组(“文本”,“标签”) -> 102 data [data_type] = [(row [x],str(row [y]))_,df.iterrows()中的行]     其他103条:     104#每个样本都是一个元组(“文本”,[“标签”,“标签”,...])

〜\ Anaconda3 \ lib \ site-packages \ deeppavlov \ dataset_readers \ basic_classification_reader.py在(.0)中     如果class_sep为None,则为100:     101#每个样本都是一个元组(“文本”,“标签”) -> 102 data [data_type] = [(row [x],str(row [y]))_,df.iterrows()中的行]     其他103条:     104#每个样本都是一个元组(“文本”,[“标签”,“标签”,...])

〜\ Anaconda3 \ lib \ site-packages \ pandas \ core \ series.py在 getitem (自身,密钥)中     866键= com.apply_if_callable(键,自)     867尝试: -> 868结果= self.index.get_value(self,key)     869     870,如果不是is_scalar(result):

〜\ Anaconda3 \ lib \ site-packages \ pandas \ core \ indexes \ base.py in get_value(self,series,key)    4387引发InvalidIndexError(键)    4388其他: -> 4389提高E1    4390,例外情况:#pragma:无遮挡    4391提高e1

〜\ Anaconda3 \ lib \ site-packages \ pandas \ core \ indexes \ base.py in get_value(self,series,key)    4373试试:    4374返回self._engine.get_value(s,k, -> 4375 tz = getattr(series.dtype,'tz',无)    4376,除了KeyError作为e1:    4377如果len(self)> 0和(self.holds_integer()或self.is_boolean()):

pandas._libs.index.IndexEngine.get_value()中的

pandas / _libs / index.pyx

pandas._libs.index.IndexEngine.get_value()中的

pandas / _libs / index.pyx

pandas._libs.index.IndexEngine.get_loc()中的

pandas / _libs / index.pyx

pandas中的pandas / _libs / hashtable_class_helper.pxi._libs.hashtable.PyObjectHashTable.get_item()

pandas中的pandas / _libs / hashtable_class_helper.pxi._libs.hashtable.PyObjectHashTable.get_item()

KeyError:'文本'

从deeppavlov导入train_model,配置

我希望所有数据都不会出现错误。现在数据看起来像 价值标签 1600行

1 个答案:

答案 0 :(得分:0)

有未记录的初始化参数x='text'y='labels'-xy数据的标题。出现此错误是因为大熊猫在您的数据中找不到text标头。
还要记住,您使用header=1,并且行号以0开头,因此将跳过csv文件中的第一行。