我正在使用可扩展哈希来查找查询更快。 我的代码是这个步骤: 1)读取主文本文件(hudge file 4 GiB) 文件是这样的:
12435 alex romero
13452 jack robert
13485 marya car
45132 gun tribble
...
用户想知道例如密钥12435与什么有关?(回答:alex romero)
2)为文件中的键创建一个哈希表(i表示12435,13452,13485,...) 我将这些表动态地保存在硬盘中的一些名为:0.txt,1.txt,2.txt和....的文本文件中。
3)当用户查询程序时,程序必须计算其值的散列函数并找到必须读取的文件,然后找到结果的速度会更快。
我有一个功能:
#define LIMIT 7
void writeInFile(int key , const char* charPos ){
int remainder = key%(LIMIT*LIMIT);
string myFileName;
ostringstream convert;
convert << remainder ;
myFileName = convert.str();
myFileName += ".txt";
FILE *my_file;
my_file = fopen(myFileName.c_str() ,"a");
fputs("\n" ,my_file);
fputs(charPos , my_file);
//fclose(my_file);
}
我想知道当我使用fclose
时,程序的速度会降低!
然后我不在功能结束时使用它,但问题是,当我多次使用此功能时,我无法关闭它们,然后我无法访问这些文件。
我想创建一个&#34;列表&#34;我可以将它们的引用发送到函数,例如:FILE &* myFiles[]
或FILE &** myFiles
作为函数获取的第3个参数...
但我看到了错误。我不知道它的语法如何.i意味着一些语法如:
void writeInFile(int key , const char* charPos , FILE &*myFiles[] ) // this makes error
我认为的另一种方法是,我可以关闭那些现在无法访问它们的文件吗?或者我可以更改导致此问题的代码吗?
更新:这是我的完整代码
#include <iostream>
#include <fstream>
#include <limits>
#include <string>
#include <sstream>
#include <stdio.h>
#include <vector>
#define LIMIT 7
using namespace std;
void writeInFile(int key , const char* charPos ){
int remainder = key%(LIMIT*LIMIT);
string myFileName;
ostringstream convert;
convert << remainder ;
myFileName = convert.str();
myFileName += ".txt";
FILE *my_file;
my_file = fopen(myFileName.c_str() ,"a");
fputs("\n" ,my_file);
fputs(charPos ,my_file);
//fclose(my_file);
}
int main(){
string fileName;
cout << "hello, please inter your file destination : " ;
cin >> fileName;
ifstream myFile ;
myFile.open(fileName.c_str() ,ifstream::in |ifstream::binary);
cout << "building the hash,please wait";
string havij;//:D this is an unusable variable in this section :))
int current;
int index;
int isCout=0;
char buffer [10];
//FILE *my_file[49];
while(!myFile.eof()){
cout << isCout << endl;
isCout++;
index = myFile.tellg();
itoa(index , buffer ,10);
//cout << buffer << endl;
myFile >> current;
writeInFile(current ,buffer);
getline(myFile,havij);
}
myFile.close();
fstream test;
//for(int i =0 ; i<LIMIT*LIMIT-1 ; i++){
// fclose(my_file[i]);
//}
cout << endl << "static extensible hash structure builded please inter your query : " ;
int query;
cin >> query;
int remainder = query%(LIMIT*LIMIT);
string myFileName;
ostringstream convert;
convert << remainder ;
myFileName = convert.str();
myFileName += ".txt";
ifstream myFile2;
//myFile2 is now the files that create by program like : 12.txt ,25.txt ,....
myFile2.open(myFileName.c_str() , ifstream::in | ifstream::binary);
ifstream mainFile;
mainFile.open(fileName.c_str(), ifstream::in | ifstream::binary);
int position;
string wanted;
int tester;
while(!myFile2.eof()){
myFile2 >> position;
mainFile.seekg(position ,ios::beg);
mainFile >> tester;
if (tester == query ){
getline(mainFile ,wanted);
cout << "the result of the key " << tester << " is " << wanted << endl;
}
}
return 0;
}
答案 0 :(得分:0)
或者你可以这样做:
void writeInFile(int key , const char* charPos , std::vector<std::ofstream> & myFiles );
我发现这会让我的大脑受到的伤害减少。
答案 1 :(得分:0)
如果您未在声明FILE *变量的相同上下文中关闭文件,则会泄漏该文件描述符。在某些时候,你将耗尽资源,程序将崩溃。
由于您使用的是已显示的代码段中的C ++,因此使用std :: vector和std :: ofstream会更好。
void writeInFile(int key, const char* charPos, std::vector<std::ofstream> my_files )
答案 2 :(得分:0)
如前所述,您应该在打开的范围内关闭该文件。这是C ++流的默认行为。
然而,这并不意味着你应该为你添加的每个单词打开/关闭!您写入的文件应保持打开状态,只要您有要添加的内容(请注意操作系统可以处理的文件描述符数量有限制)。
因此,您应该:
(*)如上所述,您可能会遇到硬限制,在这种情况下,您可以做的事情不多,如果您的哈希函数值得,则缓存不太可能有效。一种可能性是在大文件上进行多次运行并在每次运行时仅保存一部分哈希值(比如运行1:[0-9]中的哈希值,运行2:[10-19]中的哈希值,... )。
您使用的基本类型FILE*
或ofstream
不太重要,两者都具有相当的速度(正确调整)。