我试图在PySpark上重新创建this tutorial:Doc2Vec的应用程序。
在某个时候,我需要将用户定义的python生成器转换为PySpark,如下所示。
执行此操作的最佳/正确方法是什么?
def read_corpus(df, tokens_only=False):
for i, l in enumerate(df):
if tokens_only:
yield gensim.utils.simple_preprocess(l)
else:
yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(l), [i])