我自己动手学习python(和编码)不到一个星期,因此,如果我无意中含糊,请原谅。
我的目的是使用spacy从CSV提取命名实体,名词块,动词和形容词。我意识到,为了实现其目的,导入/导出将采用数据帧格式。感谢在线上有用的资源,到目前为止,我已经获得了以下代码:
import spacy
nlp=spacy.load('en')
import pandas as pd
import xlsxwriter
#imported all the modules
emails=pd.read_csv('wassup.csv')
#defined the file
def explain_text_entities(text):
doc = nlp(text)
for ent in doc.ents:
print(f'Entity: {ent}, Label: {ent.label_},{spacy.explain(ent.label_)}')
#defined a named entity program
explain_text_entities(emails['text'][5])
#tested and this works to return me a sample analysis for the CSV file.
对于上下文,CSV文件中的A列在第1行中具有标题(“等级”),B列在第1行中具有标题(“文本”)。包括标题在内,共有338行。
我意识到上面的代码仅适用于识别CSV文件中的命名实体。但是有什么想法可以从这里继续添加更多功能并将此分析导出到CSV吗? Spacy一直说希望有一个字符串,但我给了它一个数据帧。您窥视是否有任何有用的资源,或者对如何构造我的代码有任何见识?
再次感谢!
窗帘