标签: python nlp nltk corpus
我想在不同故事中发现呼唤作为承认家庭关系的一步。因此,我需要一个称呼语料库NLTK或其他一些来源。我找不到一个可以使用的东西。
这应该是一个函数,它将文件(包含文本)作为输入,输出应该是包含收件人(例如姐妹)作为关键字的字典,以及属于收件人的所有声明(例如亲爱的) ,亲爱的,等等。)
例如,呼吁是:
亲爱的(妹妹),女士(Boente),小(妹妹),最亲爱的(妹妹)。
如果没有将声明定义为白名单,这是否可行? 我们可以通过语料库自动化它以达到我们的输出吗?