根据文件编码和文件大小

时间:2016-03-01 02:09:18

标签: python encoding grep full-text-search plaintext

背景信息:我正在教自己在python中进行并发编程,为此我正在实现一个grep版本,它将搜索工作单元分成要在不同内核上执行的工作单元。

我在this question注意到,由于一些优化,grep能够快速搜索,一个关键的优化是它避免读取输入文件中的每个字节。一个例子是输入被读入一个缓冲区而不是根据找到换行符的位置进行拆分。

我想尝试将大型输入文件拆分为较小的工作单元但不读取每个字节以查找新行或任何类似的确定拆分点。我的计划是将输入分成两半(分割只是偏移),然后将这两半分成两半,直到它们具有可管理(可能是预定的)大小 - 当然,你需要知道输入的大小。 / p>

问题:是否可以计算或估算纯文本文件中的字符数,如果文件大小已知且编码也已知?

0 个答案:

没有答案