如何正确传递文本文件来搜索那里的数据?

时间:2013-12-07 18:15:28

标签: python file google-app-engine parsing

我的文件包含电话号码范围列表及其所有者(移动运营商的名称) - http://www.rossvyaz.ru/opendata/7710549038-Rosnumbase/Kody_DEF-9kh.csv

900;1940000;1949999;10000;Sky-1800
916;0;9999999;10000000;Mobile TeleSystems
917;0;29999;30000;Mobile TeleSystems

我每周会有新的电话号码(格式为+79161234567)。所以,我应该检测他们的操作员。所以,我打算每周下载更新的列表,然后匹配我对这个列表的电话。 主要问题是如何有效地做到这一点。一旦我下载了文件,将内容保存在内存然后搜索移动运营商的最佳方法是什么?

第一个想法是逐行读取文件,解析它,比较DEF(if '916' == def_from_the_line),如果是这样,然后比较范围(if 1234567>=range_start_from_the_line and 1234566<=range_end_from_the_line),但它不会很有效(考虑到我将不得不寻找几个电话号码)。

1 个答案:

答案 0 :(得分:1)

以下是您可以使用的数据结构:

from collections import defaultdict

operators = defaultdict(list)
for line in open('data').readlines():
    pre, begin, end, _, operator_name = line.split(None,4)
    operators[pre].append((int(begin),int(end),operator_name))

所以现在operators是一个字典,其键是前缀(900,916,917),其值是三元组列表:范围开始,范围结束和运算符名称。现在,您可以将该数据保存到磁盘,以避免一次又一次地解析文件。

import pickle
pickle.dump(operators, open("operators", "wb"))

当您获得新号码时,只需重新加载operators对象并将其保留在内存中。

operators = pickle.load(open("operators", "r"))

然后,以下函数将解析新数字并找到它适合的范围:

def get_operator(number, operators):
    pre = number[2:5]
    suf = int(number[5:])
    for begin, end, name in operators[pre]:
        if begin <= suf <= end:
            return name.strip()
    return Null


print get_operator("+79161234567", operators)

以上打印Mobile TeleSystems