应用错误收集

Spark中的模糊文本匹配

时间：2016-03-15 08:06:47

标签： apache-spark pyspark

我有一份客户提供的数据列表，一份公司名称列表。我必须将这些名称与公司名称的内部数据库相匹配。

客户端列表可以放入内存（大约10k元素），但是interd数据集在hdfs上，我们使用Spark来访问它。

我怎样才能匹配客户列表？我正在考虑做一个N×D元素的矩阵（RowMatrix），n是客户端元素的数量，D是内部客户端列表的长度）并计算相似度。

我怎么能在Spark中这样做？任何帮助都会受到欢迎。

0 个答案:

没有答案