Spark中的模糊文本匹配

时间:2016-03-15 08:06:47

标签: apache-spark pyspark

我有一份客户提供的数据列表,一份公司名称列表。我必须将这些名称与公司名称的内部数据库相匹配。

客户端列表可以放入内存(大约10k元素),但是interd数据集在hdfs上,我们使用Spark来访问它。

我怎样才能匹配客户列表?我正在考虑做一个N×D元素的矩阵(RowMatrix),n是客户端元素的数量,D是内部客户端列表的长度)并计算相似度。

我怎么能在Spark中这样做?任何帮助都会受到欢迎。

0 个答案:

没有答案