我有一个大熊猫数据框(大约10GB),我想用于训练。我有一个较小的测试数据框。为了提高测试数据的性能(F1分数),建议我在火车数据中添加包含频繁的双字母组的测试记录,这样火车数据可以更好地表示测试数据,并且可以更好地训练模型。
我尝试遍历所有记录并计数二元组。这需要很长时间,但是由于我们可以将结果数据帧保存到磁盘,所以可以。问题是下一步,在该步骤中,我必须选择一个包含每个频繁二元组的记录。这需要发生,这样火车组就不会包含整个测试组。
现在,我需要多次进行这种随机选择,以便我们可以拥有多组数据并选择能够获得最佳F1得分的数据。您对如何执行此步骤有什么建议,以便可以扩展到大约1,700万条记录吗?我尝试过每行形成一个bigram,按bigram和频率排序,然后从组中删除重复项,以便仅保留其中一个。这太慢了,我花了大约10个小时。您能建议一种更快的方法吗?