Scikit自定义Transformer解析HTML页面

时间:2019-12-06 11:54:27

标签: python scikit-learn

我有一个python函数:

def read_and_parse_html(data: dict):
    '''The function read an html file from cloud bucket as string, parses it and return the data'''
    bucket = data["bucket"]
    file = data["name"]

    html, metadata = _read_from_bucket(bucket, file)
    filename = file.replace(".html", "") + ".json"
    data = _parse_html(html) # retuns a dict
    data["file"] = file
    data["redirects"] = metadata["redirects"]
    data["url"] = metadata["request_url"]
    data["hostname"] = metadata["hostname"]

    return data

我想在scikit转换器中使用它,以便作为输入,我提供数据(如dict),并且转换器应解析它(通过调用此自定义函数),然后将数据作为数据帧返回。

我该如何实现?

0 个答案:

没有答案