我正在解决这个问题,其中文本数据位于文档文件中,结果 5 个标签位于 csv 文件中。因此,要训练 spaCy NER
模型,我们必须将 dtaa 标记为:
TRAIN_DATA = [
("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),
("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}),
]
但我的数据在 csv 文件中,例如:
我编写了一个函数,它将搜索文本中第一次出现的 col query
并添加长度。类似的东西:
train_data = []
for i,index in enumerate(df.index.tolist()):
row_data = df.iloc[i,:].values.tolist()
entities = {"entities":[]}
for file in dir_files:
if file.split('.')[0] == row_data[0]:
text = preprocess(textract.process("./Training_data/"+file))
for j,entry in enumerate(row_data[1:]):
if not pd.isna(entry):
if isinstance(entry,str): # takes care of null values
entities['entities'].append((text.find(str(entry).strip()),len(str(entry)),ent_names[j]))
结果是
{'entities': [(-1, 7, 'Aggrement Value'),
(-1, 10, 'Aggrement Start Date'),
(-1, 10, 'Aggrement End Date'),
(-1, 4, 'Renewal Notice (Days)'),
(124, 22, 'Party One'),
(540, 45, 'Party Two')]}
STRING
给了我不错的结果,但我有一个很大的日期问题,因为格式为 12.08.2018
,价格为格式 6000.00
。我无法直接比较,所以我必须更改价格 str(int(price))
然后匹配。它会起作用,但日期永远不会采用 CSV 中给出的格式。有点像1stDAY OF SEPTEMBER 2018 TWO THOUSAND EIGHTEEN
。我应该如何以格式标记那个?
我尝试使用 Spacy's
内置 NER 以便我可以弄清楚,但它没有给我很好的结果。
nlp = spacy.load('en_core_web_sm')
doc = nlp(preprocess(text))
displacy.render(nlp(doc.text),style='ent',jupyter=True)
它给了我类似的东西:
我如何标记我的数据,因为如果没有正确标记日期,一切都是徒劳的,因为无论如何它永远不会学会获取日期。
有没有 Regular expression RE
或者我看到 NLTK POS based Queries to extract NER 给了我们类似的东西: