标签: apache-spark pyspark
我有一份客户提供的数据列表,一份公司名称列表。我必须将这些名称与公司名称的内部数据库相匹配。
客户端列表可以放入内存(大约10k元素),但是interd数据集在hdfs上,我们使用Spark来访问它。
我怎样才能匹配客户列表?我正在考虑做一个N×D元素的矩阵(RowMatrix),n是客户端元素的数量,D是内部客户端列表的长度)并计算相似度。
我怎么能在Spark中这样做?任何帮助都会受到欢迎。