应用错误收集

如何手动制作测试数据以进行引文记录的聚类？

时间：2016-07-14 11:41:42

标签： testing machine-learning cluster-analysis manual

我正在研究作者名称歧义消除问题。我想做一些实验。我想在引文记录上执行群集。我的数据集包含2000个 xml 记录。我需要测试数据。我正在使用的数据集不受欢迎，我需要手动制作测试数据。我不知道该怎么做。我需要有关如何手动制作测试数据的说明。 注意：我想比较解决作者名称消歧问题的一组技术的性能，所以我必须执行测试。

2 个答案:

答案 0 :(得分：0)

即使你不清楚你想要执行什么样的测试，但是对手头问题的一般回答 - 试图从手头的数据中人为地创建更多数据 - 是一个引导程序。通常，当您根据需要从数据集中执行替换时，这是一种技术。它会重复从您的数据中随机选取一些元素，直到您获得所需大小的样本。您获得的样本可能比原始数据集大，但应该与原始数据集类似（从统计角度来看）。 sklearn中的Bootstrap采样为available。

P.S。你需要记住，这个解决方案并不是最优的 - 这个问题的最佳解决方案是以某种方式实际获得更多真实数据。

答案 1 :(得分：0)

分类与聚类

对于作者姓名消歧，我认为您不希望群集。你想要的是分类。

您有每个作者/出版物的功能。现在，您为分类器提供了两个特征向量。它将“它是同一作者”或“那些不同的作者”分类。

培训/测试数据

有了二元分类问题，测试突然变得简单：只需经常使用文献中使用的一种措施（准确性，精确度，召回率，混淆矩阵）。

获取数据可能会有点复杂。您写道，您有一个包含2000条记录的XML文件。我想你可以自动从这些记录中获取特征，而作者有一个标识符？然后，通过检查标识符是否相同，您可以通过拥有不同的作者和正面示例来生成负面示例。

否则你可以查看http://dblp.uni-trier.de/。尽管同一作者可能有许多出版物应该有所不同，但它们确实不仅通过名称来区分作者，而且还为它们提供标识符。

或者，您可以训练分类器，以便对每个已知作者进行分类。＆GT; 30种出版物。然后删除softmax图层并使用这些特征来区分作者。