我有一个包含名词,代词,专有名词等的数据集。这是数据集的示例:
در
همین
حال
<coref coref_coref_class="set_0" coref_mentiontype="ne" markable_scheme="coref" coref_coreftype="ident">
نجیب
الله
خواجه
عمری
</coref>
<coref coref_coref_class="set_0" coref_mentiontype="np" markable_scheme="coref" coref_coreftype="ident">
سرپرست
وزارت
تحصیلات
عالی
افغانستان
</coref>
گفت
که
现在,我要检查名词短语是否是代词。我将名词短语与达里语中可能的代词列表进行了比较。此功能应同时提取i_NP和j_NP。但是我没有输出。这是我尝试过的。
PRONOUNS = ["او", "ما","تو", "شما", "وی", "ایشان",
"آنان", "آنها", "خود", "خویشتن", "خویش", "این",
"آن", "اینان", "اینها"]
def isPronoun_feature(text):
coref = re.findall(r'<coref.*?>(.*?)</coref>', text, re.S)
l = list(map(lambda x: x.replace('\n', ' '), coref))
for i in range(0,len(l)-1,2):
i_NP =l[i]
j_NP = l[i+1]
#print(i_NP, j_NP)
if i_NP in PRONOUNS:
return True
elif j_NP in PRONOUNS:
return True