优化dask系列过滤 - Series.isin()的延迟版本

时间:2016-03-09 03:54:13

标签: dask

我目前在更大的计算中嵌入了以下模式

seq1.isin(seq2[seq3].unique().compute().values)

其中seq3是一个布尔系列。 性能似乎是可以接受的,但它很丑陋并使用compute()强制评估,可能会消除并行机会。 简单地说

seq1.isin(SEQ2 [SEQ3] .unique())

不起作用,文档说isin的参数必须是(我假设为Numpy)数组。

是否有更好的方式来编写上述代码? 如果seq1seq2相同,该怎么办?

2 个答案:

答案 0 :(得分:0)

我认为可以进行增量集合会员操作。为了获得正确的结果,您需要有一个完全实现的集合来回答项目是否是其成员的问题。

答案 1 :(得分:0)

您可以使用内部联接来实现此操作。