Pyspark - 根据语言

时间:2017-12-12 05:12:46

标签: python apache-spark pyspark spark-dataframe pyspark-sql

此问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如,如果注释是俄语,那么我想过滤该特定行并将其保存在单独的文件中。

现在,在阅读文件时,我正在使用正在制作数据帧的代码。

Info = sqlContext.read.format("csv"). \
option("delimiter","\t"). \
option("header", "True"). \
option("inferSchema", "True"). \
load("file.tsv")

DataFrame[ID: int Comments: string]

然后我尝试使用ORD函数根据ASCII值过滤掉记录:

Info.filter((map(ord,Info.Comments)) < 128).collect()

但是,我收到了错误:

  

TypeError:map()的参数2必须支持迭代

示例输入:

Comments

{175:'Аксессуары'}
{156:'Горные'}
{45:'Кровати, диваны и кресла'}
{45:'Кровати, диваны и кресла'}

请提出一些解决方案。任何帮助/建议表示赞赏。

更新:

@ ags29

我已经通过编写此代码纠正了我在评论中提到的错误。

spark_ord=F.udf(lambda x: [ord(c) for c in x],t.ArrayType(IntegerType()))
Info=Info.withColumn('russ', spark_ord('Comments'))

DataFrame[ID: int, Comments: string, russ: array<int>]

现在的问题是它正在创建Array [Int]。我必须根据Array中存在的值小于128来过滤整行。

我正在努力实现这一目标。请建议。

2 个答案:

答案 0 :(得分:1)

@ ags29感谢您的建议。

以下是答案:

通过如上所述读取文件来创建Dataframe之后,我们必须用一些值替换Null值,在这种情况下我将用NA替换它。

InfoWoNull = Info.fillna({'Comments':'NA'})

然后,使用ORD函数创建UDF以查找字符串中每个字符的ASCII值。输出将是整数数组。

from pyspark.sql import functions as F
from pyspark.sql import types as t
from pyspark.sql.types import ArrayType, IntegerType

russ_ord=F.udf(lambda x: [ord(a) for a in x],t.ArrayType(IntegerType()))

创建过滤器功能,根据大于127的ASCII字符过滤掉该值。

def russian_filter(x):
for index in range(len(x)):
    if x[index] > 127:
    return True
return False

filter_udf = F.udf(russian_filter, BooleanType())

在下面的最后一步中使用它。

Info_rus = InfoWoNull.filter(filter_udf(russ_ord('SearchParams')) == 'true')
Info_rus.show()

答案 1 :(得分:0)

这未经过测试,但这些内容应该有效:

from pyspark.sql.functions import udf
from pyspark.sql.types import IntegerType

# create user defined function from ord
spark_ord=udf(lambda x: ord(x), IntegerType())

Info=Info.withColumn('ord', spark_ord('Comments'))
Info=Info.filter('ord<128')

基本上,要将ord函数与DataFrame一起使用,您需要一个用户定义的函数。您尝试的方法需要RDD,而不是DataFrame