应用错误收集

将python生成器转换为PySpark

时间：2018-09-05 02:39:53

标签： pyspark nlp user-defined-functions pyspark-sql doc2vec

我试图在PySpark上重新创建this tutorial：Doc2Vec的应用程序。

在某个时候，我需要将用户定义的python生成器转换为PySpark，如下所示。

执行此操作的最佳/正确方法是什么？

def read_corpus(df, tokens_only=False):
    for i, l in enumerate(df):
        if tokens_only:
            yield gensim.utils.simple_preprocess(l)
        else:
            yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(l), [i])

0 个答案:

没有答案