我有一个大约10 GB的文本文件,我需要对文件中的文本数据进行一些处理。 阅读,访问和处理如此庞大的文件的最佳方式是什么?
我正在考虑将文件分成块,然后通过处理较小的文件(或者可以在缓冲区中 - 更好)来处理它,然后合并结果。更像是map-reduce范例,但不会使用大数据技术。
答案 0 :(得分:1)
选项如何处理数据:
将所有内容加载到RAM中并立即处理 - 如果它适合那里......
一次只处理一行;例如逐行。很好,如果所有处理都不需要除处理线本身之外的其他信息 - 没有共享存储,没有数据库......
结合上面两个:读取一堆项目(文本行等),处理它们,读取另一堆项目...如果你想/需要使用共享存储(数据库)处理的话批量处理比逐一处理更有效。
“Hadoop风格”:使用可扩展的算法和数据结构,如地图,排序,可能是窗口,事件流,二进制搜索 - 并将它们连接在一起成为数据处理管道。没有共享存储。基本上这是“逐行”的方法,但有一些魔法会给你“正确的线条”(排序,聚合,按一些键分组,前N,后N ......)。
根据我的经验提供一些提示:
使用压缩。即使你的磁盘足够大,磁盘(或网络!)I / O通常也是瓶颈。
尽可能使用批次/数据块一次处理/发送/保存/加载...更多项目。如果处理数据库:进程(选择,插入,更新......)一次更多项目。例如,MongoDB具有批量操作。这节省了网络I / O开销。
尽量减少系统调用次数(通过像上面提到的那样批量处理)。每个系统调用意味着CPU必须切换上下文,CPU缓存内容消失,操作系统可能需要与硬件通信...
使用所有CPU核心。有些平台(Python,Ruby)在这里使用进程而不是线程。
尽可能使用CPU缓存。例如,像数组或C ++ vector
这样的“线性”数据结构在这方面比链接列表更好。使用排序数组和二进制搜索而不是dict / map和密钥查找 - 更小的内存占用,更小的内存碎片,更高的CPU缓存命中率。
将输入数据拆分为零件,因此即使加载数据也可以轻松并行化。
现在,该怎么做:
您可以在“localhost模式”中使用Hadoop或类似工具 - 无需使用YARN,Zookeeper等等部署完整堆栈。只需安装hadoop(或类似的东西),用你的数据处理逻辑写一些.java文件,编译成.jar,在Hadoop中执行,完成。无需使用HDFS(如果您不想),只需普通文件。
或者从头开始写点东西。在这里我推荐Python,因为它适用于所有可以想象的东西(文件格式,数据库,数学库),它的multiprocessing
模块提供了很棒的工具(比如进程,进程池,队列,锁,并行映射,类似redis)数据服务器)使您的程序有点分布。如果你发现Python slow 只是将那个缓慢的部分重写为C / C ++并从Python中使用它(使用cffi或Cython)。
大多数Python多处理功能仅限于单个主机/计算机。我认为这基本上没问题,因为今天的硬件通常有很多CPU内核。如果没有,只需启动一个AWS EC2实例,其中包含您喜欢的核心数,每小时几美分。
让我们举一些例子 - 字数,“大数据问候世界”。使用Python。我将使用cswiki.xml.bz2维基百科转储,压缩为618 MB,未压缩为2.35 GB。它是一个XML文件,但我们将它作为文本文件使用,以保持简单:)
首先 - 使用单个文件很繁琐。将它拆分为更小的文件要好得多 输入数据可以更容易地分发给多个工人:
$ bzcat cswiki-20160920-pages-articles-multistream.xml.bz2 | \
split \
--filter='xz -1 > $FILE' \
--additional-suffix=.xz \
--lines=5000000 \
- cswiki-splitted.
结果:
$ ls -1hs cswiki*
618M cswiki-20160920-pages-articles-multistream.xml.bz2
94M cswiki-splitted.aa.xz
77M cswiki-splitted.ab.xz
74M cswiki-splitted.ac.xz
64M cswiki-splitted.ad.xz
62M cswiki-splitted.ae.xz
56M cswiki-splitted.af.xz
54M cswiki-splitted.ag.xz
58M cswiki-splitted.ah.xz
59M cswiki-splitted.ai.xz
15M cswiki-splitted.aj.xz
这是一个简单的wordcount实现,它使用multiprocessing.Pool:
#!/usr/bin/env python3
import lzma
import multiprocessing
from os import getpid
from pathlib import Path
import re
def main():
input_dir = Path('.')
input_files = [p for p in input_dir.iterdir() if p.name.startswith('cswiki-splitted.')]
pool = multiprocessing.Pool()
partial_results = pool.map(process_file, input_files)
aggregated_results = {}
for pr in partial_results:
for word, count in pr.items():
aggregated_results[word] = aggregated_results.get(word, 0) + count
words_and_counts = aggregated_results.items()
counts_and_words = [(c, w) for w, c in words_and_counts]
counts_and_words.sort(reverse=True)
print('Top 100:', counts_and_words[:100])
def process_file(path):
print('Process {} reading file {}'.format(getpid(), path))
f = lzma.open(str(path), 'rt')
counts = {}
for line in f:
words = re.split(r'\W+', line)
for word in words:
if word != '':
word = word.lower()
counts[word] = counts.get(word, 0) + 1
return counts
if __name__ == '__main__':
main()
输出:
$ ./wordcount.py
Process 2480 reading file cswiki-splitted.ab.xz
Process 2481 reading file cswiki-splitted.ah.xz
Process 2482 reading file cswiki-splitted.aj.xz
Process 2483 reading file cswiki-splitted.aa.xz
Process 2484 reading file cswiki-splitted.af.xz
Process 2485 reading file cswiki-splitted.ac.xz
Process 2486 reading file cswiki-splitted.ai.xz
Process 2487 reading file cswiki-splitted.ae.xz
Process 2482 reading file cswiki-splitted.ad.xz
Process 2481 reading file cswiki-splitted.ag.xz
Top 100: [(4890109, 'quot'), (4774018, 'gt'), (4765677, 'lt'), (4468312, 'id'), (4433742, 'v'), (4377363, 'a'), (2767007, 'na'), (2459957, 'text'), (2278791, 'amp'), (2114275, 'se'), (1971423, 'ref'), (1968093, 'kategorie'), (1799812, 'align'), (1795733, 'nbsp'), (1779981, 'title'), (1662895, '0'), (1592622, '1'), (1489233, 'page'), (1485505, 'je'), (1483416, 'model'), (1476711, 'format'), (1473507, '2'), (1470963, 'ns'), (1468018, 'revision'), (1467530, 'contributor'), (1467479, 'timestamp'), (1467453, 'sha1'), (1429859, 'comment'), (1414549, 'username'), (1261194, 's'), (1177526, '3'), (1159601, 'z'), (1115378, 'http'), (1040230, 'parentid'), (1012821, 'flagicon'), (949947, 'do'), (920863, 'right'), (887196, 'br'), (828466, 'x'), (797722, 've'), (795342, '4'), (783019, 'www'), (778643, '6'), (762929, 'name'), (762220, 'wiki'), (757659, 'i'), (752524, 'space'), (742525, 'xml'), (740244, 'center'), (733809, 'preserve'), (733752, 'wikitext'), (730781, 'o'), (725646, 'cz'), (679842, '5'), (672394, 'datum'), (599607, 'u'), (580936, 'byl'), (563301, 'k'), (550669, 'roce'), (546944, '10'), (536135, 'pro'), (531257, 'jako'), (527321, 'rd1'), (519607, '7'), (515398, 'roku'), (512456, 'od'), (509483, 'style'), (488923, 'za'), (485546, 'titul'), (467147, 'jméno'), (451536, '14'), (448649, '2016'), (447374, 'po'), (444325, 'citace'), (442389, 'jpg'), (424982, '12'), (423842, 'že'), (416419, 'název'), (408796, 'redirect'), (405058, 'minor'), (402733, 'to'), (400355, 'soubor'), (398188, '8'), (395652, 'the'), (393122, '11'), (389370, 'místo'), (368283, '15'), (359019, 'url'), (355302, 'monografie'), (354336, 'odkazy'), (352414, 'jsou'), (348138, 'of'), (344892, 'narození'), (340021, 'vydavatel'), (339462, '2014'), (339219, '20'), (339063, 'jeho'), (336257, '9'), (332598, 'praha'), (328268, 'byla')]
我们可以看到来自XML标签和属性的噪音很多。这就是你在XML文件上运行wordcount所得到的:)
所有文件读取和字数统计都是并行完成的。只在主流程中执行了最终聚合。
答案 1 :(得分:0)
如果将所有10 GB加载到内存中,一切都很简单。
如果你负担不起,那么你一次只能将大文件的范围加载到缓冲区中。
当您完成一个部分后,您可以滑动窗口(更改范围),将新的数据范围加载到缓冲区中,这样就会丢弃(覆盖)缓冲区中先前的数据范围。
您可以寻找所需的位置,并可能需要来回加载数据。它可能相对较慢,但这是您使用较少内存(时空权衡)所付出的代价。
-
您可能想要阅读可以处理大文件的程序的源代码。例如。文件存档。
答案 2 :(得分:0)
我会使用线程将文件的每个块加载到缓冲区中,然后处理缓冲区并执行您需要的操作。然后加载更多缓冲区从内存中删除以前的缓冲区并继续。查看如何加载音频,因为它会像你想要的那样加载到缓冲区中。