Question

假设我有TSV file

看起来像：

status=200  protocol=http   region_name=Podolsk datetime=2016-03-10 15:51:58    user_ip=0.120.81.243    user_agent=Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36    user_id=7885299833141807155 user_vhost=tindex.ru    method=GET  page=/search/

我需要提取用户＆＃39;浏览器和OS使用统计。这里的代码运行得很好，除非它真的很慢：

from ua_parser import user_agent_parser
import user_agents
dict0 = {}
def grep(filename, pattern):
    for n,line in enumerate(open(filename)):
        ua_start = line.find(pattern) + len(pattern)
        ua_end = line.find('\t', ua_start)
        ua = str(user_agents.parse(line[ua_start:ua_end]).browser.family)
        try:
            dict0[ua] += 1
        except KeyError:
            dict0[ua] = 1

grep('data/data.tsv', 'user_agent=')

它让我对字典中的统计信息有了一个很好的想法，如下所示：

{'Android': 10890,
 'Apache-HttpClient': 59,
 'Avant': 21,
 'BlackBerry WebKit': 16,
 'CFNetwork': 301,
 'Chrome': 20963,
 'Chrome Mobile': 1442,
 'Chrome Mobile iOS': 69,
 'Chromium': 290,
 'Dolfin': 34,
 'Edge': 872,
 'Edge Mobile': 12,
 'Epiphany': 1,
 'Firefox': 9757,
 'Firefox Beta': 4,
 'Firefox Mobile': 22,
 'Firefox iOS': 1,
 'Galeon': 1,
 'Googlebot': 1,
 'IE': 5399,
 'IE Large Screen': 4,
 'IE Mobile': 340,
 'Iceweasel': 12,
 'Iron': 7,
 'Jasmine': 3,
 'Mail.ru Chromium Browser': 649,
 'Maxthon': 137,
 'Midori': 1,
 'Mobile Safari': 2778,
 'Mobile Safari UI/WKWebView': 51,
 'Nokia Browser': 14,
 'Nokia OSS Browser': 1,
 'Obigo': 2,
 'Opera': 10652,
 'Opera Coast': 2,
 'Opera Mini': 675,
 'Opera Mobile': 299,
 'Opera Tablet': 25,
 'Other': 13424,
 'PhantomJS': 11,
 'Pinterest': 1,
 'Puffin': 25,
 'Python Requests': 39,
 'Python-urllib': 9,
 'QQ Browser Mobile': 3,
 'Safari': 255,
 'Samsung Internet': 522,
 'SeaMonkey': 1,
 'Sogou Explorer': 2,
 'Spider': 17,
 'UC Browser': 528,
 'Vivaldi': 7,
 'WebKit Nightly': 104,
 'Yandex Browser': 19969,
 'YandexBot': 86,
 'YandexDirect': 2,
 'YandexMobileBot': 1,
 'YandexSearch': 2601}

这里真正慢的组件是 user_agents 本身。我并不真正依赖于user_agents库或我存储结果的方式，所以如果您对如何提高处理速度有任何想法，欢迎您。

Answer 1

实际上我做了一个很好的方法，可以提高速度！基本上我们首先将user_agent =行添加到字典并计算它们。然后我们将密钥解析为user_agents并计算值！

from ua_parser import user_agent_parser
parsing_dict = {}
os_stats = {}
browser_stats = {}
target = 'tindex.ru'
def grep(filename, pattern):
    def parse_ua(ua):
            p = ua_parser.user_agent_parser.Parse(ua)
            return [p.get('os').get('family'), p.get('user_agent').get('family')]

    for n,line in enumerate(open(filename)):
        if target in line:
            ua_start = line.find(pattern) + len(pattern)
            ua_end = line.find('\t', ua_start)
            ua = line[ua_start:ua_end]
            try:
                parsing_dict[ua] += 1
            except KeyError:
                parsing_dict[ua] = 1

    for key, value in parsing_dict.iteritems():
        ua = parse_ua(key)
        try:
                os_stats[ua[0]] += value
                browser_stats[ua[1]] += value
        except KeyError:
                os_stats[ua[0]] = value
                browser_stats[ua[1]] = value
grep('data/data.tsv', 'user_agent=')

Answer 2

你可以使用正则表达式：

/ user_agent =（。*）user_id /

Answer 3

我使用了PyWurfl库，它提供UserAgents与Device，OS和其他此类信息的映射。

它要求我们下载最新的wurfl.xml文件，然后使用wurfl2python.py文件将数据转换为 python对象。为了提高性能，您可以稍微调整一下。

您可以做的是，加载库提供的最新wurfl.xml数据（第一次以传统方式），然后将其转换为 csv 格式。然后将csv文件内容加载到内存（作为字典对象）。然后根据我的要求，我使用Spark Jobs通过在节点之间广播这个字典对象来处理数据。

Python＆amp;大数据。 user_agents的替代方案（对于大型数据集，工作效果确实很慢）？

3 个答案: