使用jieba

时间:2017-09-30 17:53:04

标签: pyspark

我的pyspark作业失败了,错误说:'module'对象没有属性'analyze'。但是我已经在脚本中导入了jieba.analyse。类似的脚本可以在本地vm中成功运行。不知道为什么这份工作失败了。

我的部分代码如下:

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
from jieba import analyse
import pyspark
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)
text_file = sc.textFile("gs://xxx")
def process_uinfo(line):
    line = line.strip()
    line_arr = line.split('\t')
    (title, content) = line_arr
    l_title = jieba.analyse.extract_tags(title, topK=20, withWeight=True)
    return "\t".join([l_title, content])

out_rdd = text_file.map(process_uinfo) 

错误“'module'对象没有属性'analyze'”出现在以下行中:

l_title = jieba.analyse.extract_tags(title, topK=20, withWeight=True)

0 个答案:

没有答案