我在spark中有一个表,该表具有ID和numOfReq属性。 在ID中,它介于1到100之间,并且顺序不正确,并且每个ID在表中可以重复多次。我想提取具有1、47、54和89个ID的行。我可以使用如下伪代码的for循环来做到这一点:
temp = [None , None, None, None]
i = 0
for id in idList:
temp[i] = table.filter(table['ID'] == id)
i += 1
但是花了很长时间。 是否有任何过滤器或库可以快速执行此操作?我应该在代码中插入什么?我在pyspark中需要一些东西