在PySpark中具有非重复值的小部件

时间:2019-12-04 16:17:16

标签: pyspark azure-databricks

我正在尝试根据以下情况从具有非重复值的列表中构建窗口小部件。有人可以帮我找到正确的方法吗?

fileInfoList = list(filter(lambda f: f.name.endswith("") , dbutils.fs.ls(srcPath)))
for fileNames in fileInfoList:
  print(fileNames.name)

打印: 雇员 员工历史 承包商 ContractorHistory

我想要的只是没有历史的值。 尝试过此操作,但返回错误:

dbutils.widgets.dropdown("FileName", "Employee", [str(fileNames.name) for fileNames in fileInfoList])

1 个答案:

答案 0 :(得分:1)

为什么不简单地在输入下拉功能之前过滤列表?

>> fileList = ['Employee', 'Contractor', 'EmployeeHistory', 'ContractorHistory']
>> print(fileList)
   ['Employee', 'Contractor', 'EmployeeHistory', 'ContractorHistory']

>> filteredFileList = [item for item in fileList if 'History' not in item]
>> print(filteredFileList)
   ['Employee', 'Contractor']