如何手动制作测试数据以进行引文记录的聚类?

时间:2016-07-14 11:41:42

标签: testing machine-learning cluster-analysis manual

我正在研究作者名称歧义消除问题。我想做一些实验。我想在引文记录上执行群集。我的数据集包含2000个 xml 记录。我需要测试数据。我正在使用的数据集不受欢迎,我需要手动制作测试数据 。我不知道该怎么做。我需要有关如何手动制作测试数据的说明。 注意:我想比较解决作者名称消歧问题的一组技术的性能,所以我必须执行测试。

2 个答案:

答案 0 :(得分:0)

即使你不清楚你想要执行什么样的测试,但是对手头问题的一般回答 - 试图从手头的数据中人为地创建更多数据 - 是一个引导程序。通常,当您根据需要从数据集中执行替换时,这是一种技术。它会重复从您的数据中随机选取一些元素,直到您获得所需大小的样本。您获得的样本可能比原始数据集大,但应该与原始数据集类似(从统计角度来看)。 sklearn中的Bootstrap采样为available

P.S。你需要记住,这个解决方案并不是最优的 - 这个问题的最佳解决方案是以某种方式实际获得更多真实数据。

答案 1 :(得分:0)

分类与聚类

对于作者姓名消歧,我认为您不希望群集。你想要的是分类。

您有每个作者/出版物的功能。现在,您为分类器提供了两个特征向量。它将“它是同一作者”或“那些不同的作者”分类。

培训/测试数据

有了二元分类问题,测试突然变得简单:只需经常使用文献中使用的一种措施(准确性,精确度,召回率,混淆矩阵)。

获取数据可能会有点复杂。您写道,您有一个包含2000条记录的XML文件。我想你可以自动从这些记录中获取特征,而作者有一个标识符?然后,通过检查标识符是否相同,您可以通过拥有不同的作者和正面示例来生成负面示例。

否则你可以查看http://dblp.uni-trier.de/。尽管同一作者可能有许多出版物应该有所不同,但它们确实不仅通过名称来区分作者,而且还为它们提供标识符。

或者,您可以训练分类器,以便对每个已知作者进行分类。 > 30种出版物。然后删除softmax图层并使用这些特征来区分作者。