我正在尝试使用TraMineR运行最佳匹配分析,但似乎我遇到了数据集大小的问题。我有一个包含就业法术的欧洲国家的大数据集。我有超过57,000个序列,长48个单位,由9个不同的状态组成。
为了了解分析,这里是序列对象employdat.sts
的头部:
[1] EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-...
[2] EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-...
[3] ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-...
[4] ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-...
[5] EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-EF-...
[6] ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-ST-...
在较短的SPS格式中,其内容如下:
Sequence
[1] "(EF,48)"
[2] "(EF,48)"
[3] "(ST,48)"
[4] "(ST,36)-(MS,3)-(EF,9)"
[5] "(EF,48)"
[6] "(ST,24)-(EF,24)"
将此序列对象传递给seqdist()
函数后,出现以下错误消息:
employdat.om <- seqdist(employdat.sts, method="OM", sm="CONSTANT", indel=4)
[>] creating 9x9 substitution-cost matrix using 2 as constant value
[>] 57160 sequences with 9 distinct events/states
[>] 12626 distinct sequences
[>] min/max sequence length: 48/48
[>] computing distances using OM metric
Error in .Call(TMR_cstringdistance, as.integer(dseq), as.integer(dim(dseq)), : negative length vectors are not allowed
这个错误是否与大量不同的长序列有关?我正在使用带有4GB RAM的x64机器,我也在具有8 GB RAM的机器上尝试了它,它再现了错误信息。有人知道解决此错误的方法吗? 此外,使用相同的语法和国家索引对每个国家进行的分析运作良好,并产生了有意义的结果。
答案 0 :(得分:8)
之前我从未见过这个错误代码,但很可能是由于您的序列数量很多。你可以尝试至少做两件事:
"full.matrix=FALSE"
(请参阅帮助页面)。它将仅计算下三角矩阵并返回可在hclust
函数中直接使用的“dist”对象。WeightedCluster
库可以非常轻松地完成此操作。 WeightedCluster手册的第一个附录提供了一步一步的指导(该程序也在网页http://mephisto.unige.ch/weightedcluster上描述)。希望这有帮助。
答案 1 :(得分:2)
一个经常运行良好的简单解决方案是仅分析数据的样本。例如
employdat.sts <- employdat.sts[sample(nrow(employdat.sts),5000),]
将提取5000个序列的随机样本。探索这样一个重要的样本应该足以找出序列的特征,包括它们的多样性。
为了提高代表性,您甚至可以采用某种分层抽样(例如,通过第一个或最后一个状态,或通过数据集中的某些协变量)。由于您拥有原始数据集,因此您可以完全控制随机抽样设计。