我有类似的文本:"这项研究是作为工作,家庭和健康网络(www.WorkFamilyHealthNetwork.org)的一部分进行的,该网络由国家卫生研究院和国家卫生研究院的合作协议资助。美国疾病控制和预防中心:Eunice Kennedy Shriver国家儿童健康与人类发展研究所(Grant#U01HD051217,U01HD051218,U01HD051256,U01HD051276),国家老龄化研究所(Grant#U01AG027669),行为与科学科学研究办公室,国家职业安全与健康研究所(Grant#U01OH008788,U01HD059773)。"我需要将资助者与其资助号联系起来,例如:国立卫生研究院和疾病控制与预防中心:Eunice Kennedy Shriver国家儿童健康与人类发展研究所 - U01HD051217,U01HD051218,U01HD051256,U01HD051276国家老龄化研究所 - U01AG027669。我认为这是一个共同解决问题,并试图训练我自己的模型。知道我怎么能这样做吗?我尝试按照此处的说明(https://stanfordnlp.github.io/CoreNLP/coref.html#training-new-models),但由于他们使用的是C0NLL数据集,因此我不知道如何将自己的数据转换为格式。有人帮忙吗?
答案 0 :(得分:-1)
java -cp "*" -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -file input.txt -outputFormat conll
上面会给你一个conll格式数据
然后你可以获得coref的xml并与conll合并以获得完整的数据