Question

我希望有人能帮助我。我正在使用包含修复票证文本的相对较大的数据框（1.4m行）。

一个例子：

"water tank in loft area may be leaking according to op that went out for roofing issue as damp patches on ceilings all upstairs"

我已经能够应用TextBlob提取名词短语。每行都有不同的工作描述。有一个Noun_Phrase列，其中包含提取的名词短语，其数量将根据职位描述而有所不同。可能没有最多几个的名词短语。

例如

以上职位描述的名词短语是：

['water tank','loft area','damp patches']

我想看看140万个观察结果中每个名词短语出现的频率。首先，我需要将它们放入一个短语列表中（不要分散在几列中）。

我尝试过：

df2 = pd.DataFrame(df['Noun_Phrases'].values.tolist())

预期输出：

df2：

Index  |  Noun_Phrase
0      |  water tank
1      |  loft area
2      |  damp patches

但是这会产生以下错误：

回溯（最近通话最近一次）：

文件“”，第1行，在       df2 = pd.DataFrame（df ['Noun_Phrases']。values.tolist（））

文件   “ C：\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”，   第387行，在 init       数组，列= _to_arrays（数据，列，dtype = dtype）

文件   “ C：\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”，   第7434行，在_to_arrays中       dtype = dtype）

文件   “ C：\ Users [已编辑] \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ pandas \ core \ frame.py”，   第7511行，在_list_to_arrays中       内容=列表（lib.to_object_array（data）.T）

文件“ pandas / _libs / src \ inference.pyx”，第1524行，在   pandas._libs.lib.to_object_array

TypeError：预期列表，有WordList

我是Python和NLP的新手，所以可以随时解决问题。关于如何处理WordList的帖子似乎不多。也许我没有想到一种更好的方法。

用于提取名词短语的TextBlob：WordList问题

0 个答案: