我已经下载了OpenCelliD的数据集。它是一个巨大的csv文件,包含以下字段:
radio,mcc,net,area,cell,unit,lon,lat,range,samples,changeable,created,updated,averageSignal
我希望得到特定国家的所有"手机信号塔"。有一点我明白,每个国家都有自己的“mcc'”,例如the mcc for Bangladesh is 470。
我使用spark来分析数据。我的代码如下:
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
# create Spark context with Spark configuration
conf = SparkConf().setAppName("Opencellid country filter")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("cell_towers.csv")
mapped_data = df.where(df['mcc'] == '470').collect()
fp = open("cell_tower_output.csv", "w")
writer = csv.writer(fp, dialect="excel")
writer.writerows(mapped_data)
fp.close()
我正在寻找一个特定县的199K +行(通过过滤mcc)。是否有可能在一个国家拥有超过199k +的蜂窝塔?我在火花代码中做错了吗?