我有一个python函数:
def read_and_parse_html(data: dict):
'''The function read an html file from cloud bucket as string, parses it and return the data'''
bucket = data["bucket"]
file = data["name"]
html, metadata = _read_from_bucket(bucket, file)
filename = file.replace(".html", "") + ".json"
data = _parse_html(html) # retuns a dict
data["file"] = file
data["redirects"] = metadata["redirects"]
data["url"] = metadata["request_url"]
data["hostname"] = metadata["hostname"]
return data
我想在scikit转换器中使用它,以便作为输入,我提供数据(如dict),并且转换器应解析它(通过调用此自定义函数),然后将数据作为数据帧返回。
我该如何实现?