将python生成器转换为PySpark

时间:2018-09-05 02:39:53

标签: pyspark nlp user-defined-functions pyspark-sql doc2vec

我试图在PySpark上重新创建this tutorial:Doc2Vec的应用程序。

在某个时候,我需要将用户定义的python生成器转换为PySpark,如下所示。

执行此操作的最佳/正确方法是什么?

def read_corpus(df, tokens_only=False):
    for i, l in enumerate(df):
        if tokens_only:
            yield gensim.utils.simple_preprocess(l)
        else:
            yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(l), [i])

0 个答案:

没有答案