用于提取名词短语的TextBlob:WordList问题

时间:2018-11-05 13:55:15

标签: python pandas nlp textblob

我希望有人能帮助我。我正在使用包含修复票证文本的相对较大的数据框(1.4m行)。

一个例子:

"water tank in loft area may be leaking according to op that went out for roofing issue as damp patches on ceilings all upstairs"

我已经能够应用TextBlob提取名词短语。每行都有不同的工作描述。有一个Noun_Phrase列,其中包含提取的名词短语,其数量将根据职位描述而有所不同。可能没有最多几个的名词短语。

例如

以上职位描述的名词短语是:

['water tank','loft area','damp patches']

我想看看140万个观察结果中每个名词短语出现的频率。首先,我需要将它们放入一个短语列表中(不要分散在几列中)。

我尝试过:

df2 = pd.DataFrame(df['Noun_Phrases'].values.tolist())

预期输出:

df2:

Index  |  Noun_Phrase
0      |  water tank
1      |  loft area
2      |  damp patches

但是这会产生以下错误:

  

回溯(最近通话最近一次):

     

文件“”,第1行,在       df2 = pd.DataFrame(df ['Noun_Phrases']。values.tolist())

     

文件   “ C:\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”,   第387行,在 init       数组,列= _to_arrays(数据,列,dtype = dtype)

     

文件   “ C:\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”,   第7434行,在_to_arrays中       dtype = dtype)

     

文件   “ C:\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”,   第7511行,在_list_to_arrays中       内容=列表(lib.to_object_array(data).T)

     

文件“ pandas / _libs / src \ inference.pyx”,第1524行,在   pandas._libs.lib.to_object_array

     

TypeError:预期列表,有WordList

我是Python和NLP的新手,所以可以随时解决问题。关于如何处理WordList的帖子似乎不多。也许我没有想到一种更好的方法。

0 个答案:

没有答案