我正在尝试对大约300万个物种的数据进行排序,但是我一直想着自己解决了一个问题,却意识到自己已经以某种方式搞砸了。我想基于2列在“相似行”之间平均数据。 Starting Example
最终结果看起来像desired result
我已经能够在ddply的基础上基于一列进行此操作,但是由于名称在一个列中重复而不是在另一列中重复,所以结果不准确。
例如:
ddply(df,“ Name1”,numcolwise(mean))
提供了错误的数据,因为它是对两个不同动物之间的数字求平均值。在对其余数字取平均值之前,需要验证“ Name1”和“ Name2”中的数据是否相同。