处理10 GB的.txt文件

时间:2016-09-28 13:26:38

标签: file data-processing bigdata

我有一个大约10 GB的文本文件,我需要对文件中的文本数据进行一些处理。 阅读,访问和处理如此庞大的文件的最佳方式是什么?

我正在考虑将文件分成块,然后通过处理较小的文件(或者可以在缓冲区中 - 更好)来处理它,然后合并结果。更像是map-reduce范例,但不会使用大数据技术。

3 个答案:

答案 0 :(得分:1)

选项如何处理数据:

  • 将所有内容加载到RAM中并立即处理 - 如果它适合那里......

  • 一次只处理一行;例如逐行。很好,如果所有处理都不需要除处理线本身之外的其他信息 - 没有共享存储,没有数据库......

  • 结合上面两个:读取一堆项目(文本行等),处理它们,读取另一堆项目...如果你想/需要使用共享存储(数据库)处理的话批量处理比逐一处理更有效。

  • “Hadoop风格”:使用可扩展的算法和数据结构,如地图,排序,可能是窗口,事件流,二进制搜索 - 并将它们连接在一起成为数据处理管道。没有共享存储。基本上这是“逐行”的方法,但有一些魔法会给你“正确的线条”(排序,聚合,按一些键分组,前N,后N ......)。

根据我的经验提供一些提示:

  • 使用压缩。即使你的磁盘足够大,磁盘(或网络!)I / O通常也是瓶颈。

  • 尽可能使用批次/数据块一次处理/发送/保存/加载...更多项目。如果处理数据库:进程(选择,插入,更新......)一次更多项目。例如,MongoDB具有批量操作。这节省了网络I / O开销。

  • 尽量减少系统调用次数(通过像上面提到的那样批量处理)。每个系统调用意味着CPU必须切换上下文,CPU缓存内容消失,操作系统可能需要与硬件通信...

  • 使用所有CPU核心。有些平台(Python,Ruby)在这里使用进程而不是线程。

  • 尽可能使用CPU缓存。例如,像数组或C ++ vector这样的“线性”数据结构在这方面比链接列表更好。使用排序数组和二进制搜索而不是dict / map和密钥查找 - 更小的内存占用,更小的内存碎片,更高的CPU缓存命中率。

  • 将输入数据拆分为零件,因此即使加载数据也可以轻松并行化。

现在,该怎么做:

您可以在“localhost模式”中使用Hadoop或类似工具 - 无需使用YARN,Zookeeper等等部署完整堆栈。只需安装hadoop(或类似的东西),用你的数据处理逻辑写一些.java文件,编译成.jar,在Hadoop中执行,完成。无需使用HDFS(如果您不想),只需普通文件。

或者从头开始写点东西。在这里我推荐Python,因为它适用于所有可以想象的东西(文件格式,数据库,数学库),它的multiprocessing模块提供了很棒的工具(比如进程,进程池,队列,锁,并行映射,类似redis)数据服务器)使您的程序有点分布。如果你发现Python slow 只是将那个缓慢的部分重写为C / C ++并从Python中使用它(使用cffi或Cython)。

大多数Python多处理功能仅限于单个主机/计算机。我认为这基本上没问题,因为今天的硬件通常有很多CPU内核。如果没有,只需启动一个AWS EC2实例,其中包含您喜欢的核心数,每小时几美分。

让我们举一些例子 - 字数,“大数据问候世界”。使用Python。我将使用cswiki.xml.bz2维基百科转储,压缩为618 MB,未压缩为2.35 GB。它是一个XML文件,但我们将它作为文本文件使用,以保持简单:)

首先 - 使用单个文件很繁琐。将它拆分为更小的文件要好得多 输入数据可以更容易地分发给多个工人:

$ bzcat cswiki-20160920-pages-articles-multistream.xml.bz2 | \
    split \
        --filter='xz -1 > $FILE' \
        --additional-suffix=.xz \
        --lines=5000000 \
        - cswiki-splitted.

结果:

$ ls -1hs cswiki*
618M cswiki-20160920-pages-articles-multistream.xml.bz2
 94M cswiki-splitted.aa.xz
 77M cswiki-splitted.ab.xz
 74M cswiki-splitted.ac.xz
 64M cswiki-splitted.ad.xz
 62M cswiki-splitted.ae.xz
 56M cswiki-splitted.af.xz
 54M cswiki-splitted.ag.xz
 58M cswiki-splitted.ah.xz
 59M cswiki-splitted.ai.xz
 15M cswiki-splitted.aj.xz

这是一个简单的wordcount实现,它使用multiprocessing.Pool:

#!/usr/bin/env python3

import lzma
import multiprocessing
from os import getpid
from pathlib import Path
import re

def main():
    input_dir = Path('.')
    input_files = [p for p in input_dir.iterdir() if p.name.startswith('cswiki-splitted.')]

    pool = multiprocessing.Pool()
    partial_results = pool.map(process_file, input_files)

    aggregated_results = {}
    for pr in partial_results:
        for word, count in pr.items():
            aggregated_results[word] = aggregated_results.get(word, 0) + count

    words_and_counts = aggregated_results.items()
    counts_and_words = [(c, w) for w, c in words_and_counts]
    counts_and_words.sort(reverse=True)
    print('Top 100:', counts_and_words[:100])

def process_file(path):
    print('Process {} reading file {}'.format(getpid(), path))
    f = lzma.open(str(path), 'rt')
    counts = {}
    for line in f:
        words = re.split(r'\W+', line)
        for word in words:
            if word != '':
                word = word.lower()
                counts[word] = counts.get(word, 0) + 1
    return counts

if __name__ == '__main__':
    main()

输出:

$ ./wordcount.py
Process 2480 reading file cswiki-splitted.ab.xz
Process 2481 reading file cswiki-splitted.ah.xz
Process 2482 reading file cswiki-splitted.aj.xz
Process 2483 reading file cswiki-splitted.aa.xz
Process 2484 reading file cswiki-splitted.af.xz
Process 2485 reading file cswiki-splitted.ac.xz
Process 2486 reading file cswiki-splitted.ai.xz
Process 2487 reading file cswiki-splitted.ae.xz
Process 2482 reading file cswiki-splitted.ad.xz
Process 2481 reading file cswiki-splitted.ag.xz
Top 100: [(4890109, 'quot'), (4774018, 'gt'), (4765677, 'lt'), (4468312, 'id'), (4433742, 'v'), (4377363, 'a'), (2767007, 'na'), (2459957, 'text'), (2278791, 'amp'), (2114275, 'se'), (1971423, 'ref'), (1968093, 'kategorie'), (1799812, 'align'), (1795733, 'nbsp'), (1779981, 'title'), (1662895, '0'), (1592622, '1'), (1489233, 'page'), (1485505, 'je'), (1483416, 'model'), (1476711, 'format'), (1473507, '2'), (1470963, 'ns'), (1468018, 'revision'), (1467530, 'contributor'), (1467479, 'timestamp'), (1467453, 'sha1'), (1429859, 'comment'), (1414549, 'username'), (1261194, 's'), (1177526, '3'), (1159601, 'z'), (1115378, 'http'), (1040230, 'parentid'), (1012821, 'flagicon'), (949947, 'do'), (920863, 'right'), (887196, 'br'), (828466, 'x'), (797722, 've'), (795342, '4'), (783019, 'www'), (778643, '6'), (762929, 'name'), (762220, 'wiki'), (757659, 'i'), (752524, 'space'), (742525, 'xml'), (740244, 'center'), (733809, 'preserve'), (733752, 'wikitext'), (730781, 'o'), (725646, 'cz'), (679842, '5'), (672394, 'datum'), (599607, 'u'), (580936, 'byl'), (563301, 'k'), (550669, 'roce'), (546944, '10'), (536135, 'pro'), (531257, 'jako'), (527321, 'rd1'), (519607, '7'), (515398, 'roku'), (512456, 'od'), (509483, 'style'), (488923, 'za'), (485546, 'titul'), (467147, 'jméno'), (451536, '14'), (448649, '2016'), (447374, 'po'), (444325, 'citace'), (442389, 'jpg'), (424982, '12'), (423842, 'že'), (416419, 'název'), (408796, 'redirect'), (405058, 'minor'), (402733, 'to'), (400355, 'soubor'), (398188, '8'), (395652, 'the'), (393122, '11'), (389370, 'místo'), (368283, '15'), (359019, 'url'), (355302, 'monografie'), (354336, 'odkazy'), (352414, 'jsou'), (348138, 'of'), (344892, 'narození'), (340021, 'vydavatel'), (339462, '2014'), (339219, '20'), (339063, 'jeho'), (336257, '9'), (332598, 'praha'), (328268, 'byla')]

我们可以看到来自XML标签和属性的噪音很多。这就是你在XML文件上运行wordcount所得到的:)

所有文件读取和字数统计都是并行完成的。只在主流程中执行了最终聚合。

答案 1 :(得分:0)

如果将所有10 GB加载到内存中,一切都很简单。

如果你负担不起,那么你一次只能将大文件的范围加载到缓冲区中。

当您完成一个部分后,您可以滑动窗口(更改范围),将新的数据范围加载到缓冲区中,这样就会丢弃(覆盖)缓冲区中先前的数据范围。

您可以寻找所需的位置,并可能需要来回加载数据。它可能相对较慢,但这是您使用较少内存(时空权衡)所付出的代价。

-

您可能想要阅读可以处理大文件的程序的源代码。例如。文件存档。

答案 2 :(得分:0)

我会使用线程将文件的每个块加载到缓冲区中,然后处理缓冲区并执行您需要的操作。然后加载更多缓冲区从内存中删除以前的缓冲区并继续。查看如何加载音频,因为它会像你想要的那样加载到缓冲区中。