我必须阅读10 GB的文件,找出文件中最常用的短语。 我正在使用扫描仪以块的形式读取文件并将短语存储在 Trie数据结构。 我稍后会搜索这些短语以更新其计数,因此使用了trie数据结构进行有效搜索。我实施了Trie 在java中使用Hashmap,如下所示。
import android.app.Service;
import android.app.WallpaperManager;
import android.content.Intent;
import android.graphics.Bitmap;
import android.graphics.BitmapFactory;
import android.os.Environment;
import android.os.Handler;
import android.os.IBinder;
import java.io.File;
import java.io.IOException;
import java.util.Timer;
import java.util.TimerTask;
/**
* Created by abhriya on 23/10/16.
*/
public class AutomaticWallpaperChanger extends Service {
// constant
public static final long NOTIFY_INTERVAL = 15 * 1000; // 10 seconds
// run on another Thread to avoid crash
private Handler mHandler = new Handler();
// timer handling
private Timer mTimer = null;
@Override
public IBinder onBind(Intent intent) {
return null;
}
@Override
public int onStartCommand(Intent intent, int flags, int startId) {
// TODO Auto-generated method stub
return START_STICKY;
}
@Override
public void onCreate() {
// cancel if already existed
if (mTimer != null) {
mTimer.cancel();
} else {
// recreate new
mTimer = new Timer();
}
// schedule task
mTimer.scheduleAtFixedRate(new TimeDisplayTimerTask(), 0, NOTIFY_INTERVAL);
}
class TimeDisplayTimerTask extends TimerTask {
@Override
public void run() {
// run on another thread
mHandler.post(new Runnable() {
@Override
public void run() {
// display toast
File folder = new File(Environment.getExternalStorageDirectory() + File.separator + "WallR"+ File.separator + "Gallery");
if(folder.exists()) {
File[] listOfFiles = folder.listFiles();
if(listOfFiles.length!=0){
if(MainActivity.wallpaper==listOfFiles.length)
MainActivity.wallpaper=0;
Bitmap bitmap= BitmapFactory.decodeFile(listOfFiles[MainActivity.wallpaper].getPath());
WallpaperManager mWallpaperManager = WallpaperManager.getInstance(getApplicationContext());
try {
mWallpaperManager.setBitmap(bitmap);
} catch (IOException e) {
e.printStackTrace();
}
MainActivity.wallpaper++;
bitmap.recycle();
}
}
}
});
}
}
}
但是这个解决方案占用了大量的堆空间。如果文件中的所有短语都是不同的,那么Trie会占用大量的空间。还有其他方法可以以内存有效的方式实现Trie吗?
答案 0 :(得分:0)
如果您不担心一点C ++和JNI绑定,那么您可以选择更多优化解决方案。我建议尝试marisa-trie:
https://github.com/s-yata/marisa-trie/tree/master
我前段时间尝试过其他几个库(不幸的是我现在还记不起其他库)和我的数据集 marisa-trie在性能和内存使用之间取得了很好的平衡与其他C ++ trie库相比。
您也可以从内存映射IO接口中受益,因为当您的数据变得更大时(当然牺牲一些性能)。