从OpenCelliD数据库获取一个国家的所有手机信号塔

时间:2017-11-09 22:42:07

标签: python pyspark bigdata geocoding pyspark-sql

我已经下载了OpenCelliD的数据集。它是一个巨大的csv文件,包含以下字段:

radio,mcc,net,area,cell,unit,lon,lat,range,samples,changeable,created,updated,averageSignal

我希望得到特定国家的所有"手机信号塔"。有一点我明白,每个国家都有自己的“mcc'”,例如the mcc for Bangladesh is 470

我使用spark来分析数据。我的代码如下:

from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext

# create Spark context with Spark configuration
conf = SparkConf().setAppName("Opencellid country filter")
sc = SparkContext(conf=conf)

sqlContext = SQLContext(sc)


df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("cell_towers.csv")

mapped_data = df.where(df['mcc'] == '470').collect()

fp = open("cell_tower_output.csv", "w")
writer = csv.writer(fp, dialect="excel")
writer.writerows(mapped_data)
fp.close()

我正在寻找一个特定县的199K +行(通过过滤mcc)。是否有可能在一个国家拥有超过199k +的蜂窝塔?我在火花代码中做错了吗?

0 个答案:

没有答案