我希望有人能帮助我。我正在使用包含修复票证文本的相对较大的数据框(1.4m行)。
一个例子:
"water tank in loft area may be leaking according to op that went out for roofing issue as damp patches on ceilings all upstairs"
我已经能够应用TextBlob提取名词短语。每行都有不同的工作描述。有一个Noun_Phrase列,其中包含提取的名词短语,其数量将根据职位描述而有所不同。可能没有最多几个的名词短语。
例如
以上职位描述的名词短语是:
['water tank','loft area','damp patches']
我想看看140万个观察结果中每个名词短语出现的频率。首先,我需要将它们放入一个短语列表中(不要分散在几列中)。
我尝试过:
df2 = pd.DataFrame(df['Noun_Phrases'].values.tolist())
预期输出:
df2:
Index | Noun_Phrase
0 | water tank
1 | loft area
2 | damp patches
但是这会产生以下错误:
回溯(最近通话最近一次):
文件“”,第1行,在 df2 = pd.DataFrame(df ['Noun_Phrases']。values.tolist())
文件 “ C:\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”, 第387行,在 init 数组,列= _to_arrays(数据,列,dtype = dtype)
文件 “ C:\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”, 第7434行,在_to_arrays中 dtype = dtype)
文件 “ C:\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”, 第7511行,在_list_to_arrays中 内容=列表(lib.to_object_array(data).T)
文件“ pandas / _libs / src \ inference.pyx”,第1524行,在 pandas._libs.lib.to_object_array
TypeError:预期列表,有WordList
我是Python和NLP的新手,所以可以随时解决问题。关于如何处理WordList的帖子似乎不多。也许我没有想到一种更好的方法。