将数据框的一列覆盖为spacy文档

时间:2019-10-28 10:29:33

标签: python nlp spacy

如何将DataFrame的一栏变成SPACY文档,以便可以分析词性等?

我尝试过:

df['new_col'] = df['Old_col'].apply(lambda x: nlp(x))

如何获取new_col的POC计数? 我尝试过

pos_count = df['new_col'].count_by(spacy.attrs.POS)

但是我得到的错误是:

  

AttributeError:“系列”对象没有属性“ count_by”

谢谢!

1 个答案:

答案 0 :(得分:0)

您的第一句话

df['new_col'] = df['Old_col'].apply(lambda x: nlp(x))

应该有效(至少对于我曾经使用过的所有用途。

您似乎要在第二步中尝试计算文档中所有标记的词性?

如果是这样,应该可以:

def pos_count(spacy_doc):
    num_pos = [t.pos_ for t in doc if t.pos_ != None]
    return len(num_pos)

df_msg['new_col'].apply(lambda c: pos_count(spacy_doc = c))

从第二个片段中确实不清楚您想要想要什么。

相关问题