我的pyspark作业失败了,错误说:'module'对象没有属性'analyze'。但是我已经在脚本中导入了jieba.analyse。类似的脚本可以在本地vm中成功运行。不知道为什么这份工作失败了。
我的部分代码如下:
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
from jieba import analyse
import pyspark
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)
text_file = sc.textFile("gs://xxx")
def process_uinfo(line):
line = line.strip()
line_arr = line.split('\t')
(title, content) = line_arr
l_title = jieba.analyse.extract_tags(title, topK=20, withWeight=True)
return "\t".join([l_title, content])
out_rdd = text_file.map(process_uinfo)
错误“'module'对象没有属性'analyze'”出现在以下行中:
l_title = jieba.analyse.extract_tags(title, topK=20, withWeight=True)