我的文本文件中有大约25百万个由行分隔的整数。我的第一个任务是采用那些整数并对它们进行排序。我实际上已经实现了读取整数并将它们放入数组中(因为我的排序函数将未排序的数组作为参数)。但是,从文件中读取整数是一个非常漫长且昂贵的过程。我已经搜索了许多其他解决方案,以获得更便宜和有效的方式来做到这一点,但我找不到一个解决这种大小的解决方案。因此,您的建议是从巨大的(大约260MB)文本文件中读取整数。而且我如何才能有效地获得相同问题的行数。
ifstream myFile("input.txt");
int currentNumber;
int nItems = 25000000;
int *arr = (int*) malloc(nItems*sizeof(*arr));
int i = 0;
while (myFile >> currentNumber)
{
arr[i++] = currentNumber;
}
这就是我从文本文件中获取整数的方法。它并不复杂。我假设线的数量是固定的(实际上是固定的)
顺便说一下,当然不是太慢。它使用2.2GHz i7处理器在OS X中完成大约9秒的读取。但我觉得它会好得多。
答案 0 :(得分:8)
最有可能的是,对此的任何优化都可能产生相当小的影响。在我的机器上,读取大文件的限制因素是磁盘传输速度。是的,提高读取速度可以稍微提高一点,但最有可能的是,你不会从中获得很多。
我在之前的测试中发现[我会看到我能否找到答案 - 我在“我的”实验代码“目录中找不到源代码]最快的方法是加载文件使用mmap
。但它只比使用ifstream
略快。
编辑:我的自制基准,用于以几种不同的方式读取文件。 getline while reading a file vs reading whole file and then splitting based on newline character
与往常一样,基准测量衡量基准测量的内容,对环境或代码编写方式的微小变化有时会产生很大的不同。
编辑: 以下是“从文件中读取数字并将其存储在矢量中”的一些实现:
#include <iostream>
#include <fstream>
#include <vector>
#include <sys/time.h>
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
using namespace std;
const char *file_name = "lots_of_numbers.txt";
void func1()
{
vector<int> v;
int num;
ifstream fin(file_name);
while( fin >> num )
{
v.push_back(num);
}
cout << "Number of values read " << v.size() << endl;
}
void func2()
{
vector<int> v;
v.reserve(42336000);
int num;
ifstream fin(file_name);
while( fin >> num )
{
v.push_back(num);
}
cout << "Number of values read " << v.size() << endl;
}
void func3()
{
int *v = new int[42336000];
int num;
ifstream fin(file_name);
int i = 0;
while( fin >> num )
{
v[i++] = num;
}
cout << "Number of values read " << i << endl;
delete [] v;
}
void func4()
{
int *v = new int[42336000];
FILE *f = fopen(file_name, "r");
int num;
int i = 0;
while(fscanf(f, "%d", &num) == 1)
{
v[i++] = num;
}
cout << "Number of values read " << i << endl;
fclose(f);
delete [] v;
}
void func5()
{
int *v = new int[42336000];
int num = 0;
ifstream fin(file_name);
char buffer[8192];
int i = 0;
int bytes = 0;
char *p;
int hasnum = 0;
int eof = 0;
while(!eof)
{
fin.read(buffer, sizeof(buffer));
p = buffer;
bytes = 8192;
while(bytes > 0)
{
if (*p == 26) // End of file marker...
{
eof = 1;
break;
}
if (*p == '\n' || *p == ' ')
{
if (hasnum)
v[i++] = num;
num = 0;
p++;
bytes--;
hasnum = 0;
}
else if (*p >= '0' && *p <= '9')
{
hasnum = 1;
num *= 10;
num += *p-'0';
p++;
bytes--;
}
else
{
cout << "Error..." << endl;
exit(1);
}
}
memset(buffer, 26, sizeof(buffer)); // To detect end of files.
}
cout << "Number of values read " << i << endl;
delete [] v;
}
void func6()
{
int *v = new int[42336000];
int num = 0;
FILE *f = fopen(file_name, "r");
char buffer[8192];
int i = 0;
int bytes = 0;
char *p;
int hasnum = 0;
int eof = 0;
while(!eof)
{
fread(buffer, 1, sizeof(buffer), f);
p = buffer;
bytes = 8192;
while(bytes > 0)
{
if (*p == 26) // End of file marker...
{
eof = 1;
break;
}
if (*p == '\n' || *p == ' ')
{
if (hasnum)
v[i++] = num;
num = 0;
p++;
bytes--;
hasnum = 0;
}
else if (*p >= '0' && *p <= '9')
{
hasnum = 1;
num *= 10;
num += *p-'0';
p++;
bytes--;
}
else
{
cout << "Error..." << endl;
exit(1);
}
}
memset(buffer, 26, sizeof(buffer)); // To detect end of files.
}
fclose(f);
cout << "Number of values read " << i << endl;
delete [] v;
}
void func7()
{
int *v = new int[42336000];
int num = 0;
FILE *f = fopen(file_name, "r");
int ch;
int i = 0;
int hasnum = 0;
while((ch = fgetc(f)) != EOF)
{
if (ch == '\n' || ch == ' ')
{
if (hasnum)
v[i++] = num;
num = 0;
hasnum = 0;
}
else if (ch >= '0' && ch <= '9')
{
hasnum = 1;
num *= 10;
num += ch-'0';
}
else
{
cout << "Error..." << endl;
exit(1);
}
}
fclose(f);
cout << "Number of values read " << i << endl;
delete [] v;
}
void func8()
{
int *v = new int[42336000];
int num = 0;
int f = open(file_name, O_RDONLY);
off_t size = lseek(f, 0, SEEK_END);
char *buffer = (char *)mmap(NULL, size, PROT_READ, MAP_PRIVATE, f, 0);
int i = 0;
int hasnum = 0;
int bytes = size;
char *p = buffer;
while(bytes > 0)
{
if (*p == '\n' || *p == ' ')
{
if (hasnum)
v[i++] = num;
num = 0;
p++;
bytes--;
hasnum = 0;
}
else if (*p >= '0' && *p <= '9')
{
hasnum = 1;
num *= 10;
num += *p-'0';
p++;
bytes--;
}
else
{
cout << "Error..." << endl;
exit(1);
}
}
close(f);
munmap(buffer, size);
cout << "Number of values read " << i << endl;
delete [] v;
}
struct bm
{
void (*f)();
const char *name;
};
#define BM(f) { f, #f }
bm b[] =
{
BM(func1),
BM(func2),
BM(func3),
BM(func4),
BM(func5),
BM(func6),
BM(func7),
BM(func8),
};
double time_to_double(timeval *t)
{
return (t->tv_sec + (t->tv_usec/1000000.0)) * 1000.0;
}
double time_diff(timeval *t1, timeval *t2)
{
return time_to_double(t2) - time_to_double(t1);
}
int main()
{
for(int i = 0; i < sizeof(b) / sizeof(b[0]); i++)
{
timeval t1, t2;
gettimeofday(&t1, NULL);
b[i].f();
gettimeofday(&t2, NULL);
cout << b[i].name << ": " << time_diff(&t1, &t2) << "ms" << endl;
}
for(int i = sizeof(b) / sizeof(b[0])-1; i >= 0; i--)
{
timeval t1, t2;
gettimeofday(&t1, NULL);
b[i].f();
gettimeofday(&t2, NULL);
cout << b[i].name << ": " << time_diff(&t1, &t2) << "ms" << endl;
}
}
结果(连续两次运行,向前和向后以避免文件缓存的好处):
Number of values read 42336000
func1: 6068.53ms
Number of values read 42336000
func2: 6421.47ms
Number of values read 42336000
func3: 5756.63ms
Number of values read 42336000
func4: 6947.56ms
Number of values read 42336000
func5: 941.081ms
Number of values read 42336000
func6: 962.831ms
Number of values read 42336000
func7: 2572.4ms
Number of values read 42336000
func8: 816.59ms
Number of values read 42336000
func8: 815.528ms
Number of values read 42336000
func7: 2578.6ms
Number of values read 42336000
func6: 948.185ms
Number of values read 42336000
func5: 932.139ms
Number of values read 42336000
func4: 6988.8ms
Number of values read 42336000
func3: 5750.03ms
Number of values read 42336000
func2: 6380.36ms
Number of values read 42336000
func1: 6050.45ms
总之,正如有人在评论中指出的那样,整数的实际解析是整个时间的重要部分,因此阅读文件并不像我最初做的那么重要。即使是一种非常天真的阅读文件的方式(使用fgetc()
也可以获得整数ifstream operator>>
。
可以看出,使用mmap
加载文件比通过fstream
读取文件要快一些,但只是略有增加。
答案 1 :(得分:3)
您可以使用external sorting对文件中的值进行排序,而无需将它们全部加载到内存中。排序速度将受到硬盘驱动器功能的限制,但您将能够处理真正庞大的文件。这是implementation。
答案 2 :(得分:1)
Qt:
非常简单QFile file("h:/1.txt");
file.open(QIODevice::ReadOnly);
QDataStream in(&file);
QVector<int> ints;
ints.reserve(25000000);
while (!in.atEnd()) {
int integer;
qint8 line;
in >> integer >> line; // read an int into integer, a char into line
ints.append(integer); // append the integer to the vector
}
最后,您可以轻松排序ints
QVector。如果文件格式正确,则行数与向量的大小相同。
在我的机器上,i7 3770k @ 4.2 Ghz,读取2500万个整数需要大约490毫秒并将它们放入矢量中。从普通的机械硬盘读取,而不是SSD。
将整个文件缓冲到内存中并没有多大帮助,时间下降到420毫秒。
答案 3 :(得分:0)
尝试读取整数块并解析这些块而不是逐行读取。
答案 4 :(得分:0)
一种可能的解决方案是将大文件分成更小的块。分别对每个块进行排序,然后逐个合并所有已排序的块。
编辑: 显然这是一种成熟的方法。请参阅http://en.wikipedia.org/wiki/External_sorting
上的“外部合并排序”答案 5 :(得分:0)
260MB并不是那么大。您应该能够将整个内容加载到内存中,然后通过它进行解析。进入后,您可以使用嵌套循环读取行结尾之间的整数,并使用常用函数进行转换。在开始之前,我会尝试为你的整数数组预分配足够的内存。
哦,您可能会发现粗略的旧式C风格文件访问功能是更快的选择。
答案 6 :(得分:0)
你没有说你是如何读取价值的,所以很难 说。实际上,实际上只有两种解决方案:`someItream
anInt
and
fscanf(someFd,“%d”,&amp; anInt)`逻辑上,这些 应该有类似的表现,但实施方式各不相同它 可能值得尝试和测量两者。
要检查的另一件事是你如何存储它们。如果你知道的话
你有大约2500万,做了reserve
3000万
在阅读之前std::vector
可能会有所帮助。它
使用3000万构建vector
也可能更便宜
元素,然后当你看到结束时修剪它,而不是
使用push_back
。
最后,你可以考虑写一个immapstreambuf
,和
使用它来输入mmap
,并直接从中读取
映射内存。或者甚至手动迭代它,调用
strtol
(但这还有很多工作要做);所有的流媒体
解决方案可能最终会调用strtol
或其他东西
类似的,但首先围绕通话做了大量的工作。
FWIW,我在我的家用机器上进行了一些非常快速的测试(公平地说 最近的LeNova,运行Linux),结果让我感到惊讶:
作为参考,我使用了琐碎,天真的实现
std::cin >> tmp
和v.push_back( tmp );
,没有尝试过
优化。在我的系统上,这只用了不到10秒钟。
简单优化,例如在向量上使用reserve
,
或者最初创建大小为25000000的向量,但没有
改变很多 - 时间仍然超过9秒。
使用非常简单的mmapstreambuf
,时间降到了
大约3秒钟 - 最简单的循环,没有reserve
,
等
使用fscanf
,时间缩短到不到3秒。一世
怀疑FILE*
的Linux实现也使用了
mmap
(而std::filebuf
没有)。
最后,使用mmapbuffer
,迭代两个char*
和
使用stdtol进行转换,时间下降到一秒以下,
这些测试很快完成(写不到一个小时) 并运行所有这些),远非严格(当然, 不要告诉你任何关于其他环境的事情),但是 差异让我感到惊讶我没想到会有多大差异。
答案 7 :(得分:0)
我会这样做:
#include <fstream>
#include <iostream>
#include <string>
using namespace std;
int main() {
fstream file;
string line;
int intValue;
int lineCount = 0;
try {
file.open("myFile.txt", ios_base::in); // Open to read
while(getline(file, line)) {
lineCount++;
try {
intValue = stoi(line);
// Do something with your value
cout << "Value for line " << lineCount << " : " << intValue << endl;
} catch (const exception& e) {
cerr << "Failed to convert line " << lineCount << " to an int : " << e.what() << endl;
}
}
} catch (const exception& e) {
cerr << e.what() << endl;
if (file.is_open()) {
file.close();
}
}
cout << "Line count : " << lineCount << endl;
system("PAUSE");
}