快速搜索data.table或quick子集

时间:2018-03-14 01:30:40

标签: r match stringdist

我有一个带有800k +行且带有重复(随机)值的DF。对于每一行,我需要获取一个值并找到具有相同值的新行的索引。例如。 “asd” - 我还能在哪里看到它?不需要当前行的索引。

我当前的解决方案:通过删除当前行来子集DF并创建临时帧/表。问题 - 每1000次迭代需要一分钟。所以800 + k行将需要13个小时才能运行。有任何想法吗?谢谢!

在原始DF(非子集化)上运行< 1秒,但你可以想象它给了我当前行的索引。

编辑:我的真实DF超过1列。以下示例被简化。我需要获取import pandas as pd df = pd.read_csv('test.csv') df1 = pd.DataFrame(df.groupby(['Names'], as_index=False)['Score1', 'Score2'].sum().mean()) print(df1) 并获取其他V1[1]的行号,其值为V1,然后重复V1[1],依此类推每行

V1[2]

1 个答案:

答案 0 :(得分:2)

数据:

library("data.table")
set.seed(12345)
V1 = stringi::stri_rand_strings(80, 3)
df0 <- data.table( sample(V1, 100, replace = TRUE ))

代码:

df0[, id := list(list(.I)), by = V1]  # integer id

输出:

head(df0, 10)
#     V1          id
# 1: iuR      1,2,21
# 2: iuR      1,2,21
# 3: KXc           3
# 4: LwA           4
# 5: pYn           5
# 6: qoN        6,66
# 7: 5Xt           7
# 8: wBH        8,77
# 9: V9r     9,39,54
# 10: 9ks 10,28,42,48

编辑 - 删除当前索引:

df0[, id2 := 1:.N ]
df0[, id := list(list(unlist(id)[ unlist(id) != .I  ] )), by = id2 ]
df0[, id2 := NULL ]
df0[ lengths(id) > 0, ]
head( df0, 10 )
#     V1       id
# 1: iuR     2,21
# 2: iuR     1,21
# 3: KXc         
# 4: LwA         
# 5: pYn         
# 6: qoN       66
# 7: 5Xt         
# 8: wBH       77
# 9: V9r    39,54
# 10: 9ks 28,42,48