我正在研究作者姓名消歧问题。我想做一些实验。我想集中引文记录。我需要培训数据和测试数据,其中每个出版记录的真实作者都可用。有许多书目数据库,如DBLP,Medline和Pubmed等。我对测试阶段感到困惑。将DBLP分为培训和测试是一种好习惯吗?是否手动添加了DBLP引文记录?我可以保证每个引文记录都分配给DBLP中的真作者吗?有没有关于培训和测试数据库的建议。 注意:在文献中我注意到,在一些论文中,他们使用Pubmed进行培训和DBLP进行测试,尽管第一个用于医学出版物,第二个用于计算机。
答案 0 :(得分:0)
以下是我对你的问题的看法:
我对测试阶段感到困惑。将DBLP划分为培训和测试是一种很好的做法吗?
使用的做法是分割数据以进行培训和测试。但是,确保每个测试样本都有训练样本是个好主意。
是否手动添加了DBLP引文记录?我可以保证每个引文记录都分配给DBLP中的真作者吗?
根据本文,手动添加DBLP引文记录。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf
是否有任何关于培训和测试数据库的建议。
ANDDataset1已用于此类任务的某些工作中 https://sites.google.com/site/tinhuynhuit/dataset
您还可以尝试2013年KDD杯 - 作者消歧挑战赛 https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data