应用错误收集

作者姓名消歧数据

时间：2016-06-21 12:53:11

标签： database author pubmed disambiguation

我正在研究作者姓名消歧问题。我想做一些实验。我想集中引文记录。我需要培训数据和测试数据，其中每个出版记录的真实作者都可用。有许多书目数据库，如DBLP，Medline和Pubmed等。我对测试阶段感到困惑。将DBLP分为培训和测试是一种好习惯吗？是否手动添加了DBLP引文记录？我可以保证每个引文记录都分配给DBLP中的真作者吗？有没有关于培训和测试数据库的建议。注意：在文献中我注意到，在一些论文中，他们使用Pubmed进行培训和DBLP进行测试，尽管第一个用于医学出版物，第二个用于计算机。

1 个答案:

答案 0 :(得分：0)

以下是我对你的问题的看法：

我对测试阶段感到困惑。将DBLP划分为培训和测试是一种很好的做法吗？

使用的做法是分割数据以进行培训和测试。但是，确保每个测试样本都有训练样本是个好主意。

是否手动添加了DBLP引文记录？我可以保证每个引文记录都分配给DBLP中的真作者吗？

根据本文，手动添加DBLP引文记录。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

是否有任何关于培训和测试数据库的建议。

ANDDataset1已用于此类任务的某些工作中 https://sites.google.com/site/tinhuynhuit/dataset

您还可以尝试2013年KDD杯 - 作者消歧挑战赛 https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data