存储HTML文件

时间:2012-07-17 17:01:42

标签: mysql html sql filesystems ext4

我们有大约6000万个压缩格式的网页。我们想要解压缩并单独使用这些文件。

以下是我的问题!

首先,如果我将它们解压缩到文件系统中,FS是否会处理这么多文件。我的文件系统是ext4。 (我有4种不同的文件系统,因此我可以在它们之间划分数据,如每个文件系统15 M页)

其次,将这些文件存储到关系数据库中会更好吗?假设在将html文本插入数据库之前完成所有清理html文本的麻烦。

谢谢,

1 个答案:

答案 0 :(得分:0)

如果将它们提取到单个目录中,则可能超过该文件夹中的最大分配索引。如果将它们提取到多个目录中,您会更好。

60万肯定是一个公平的数额,如果你计划对它们进行任何索引或搜索然后数据库将是你最好的选择,你可以使用类似lucene的东西对文件建立索引这一切都取决于什么你想要处理 After 之后的文件。

我目前在大型用户站点上有类似的图像问题,我解决这个问题的方法是给每个图像一个GUID,并且guid中的每个字节将它分配给另一个目录,然后是下一个字节。一个子目录(低至8个字节)如果我的填充率上升我会创建更多的子目录来补偿,这也意味着我可以将它传播到不同的网络存储盒。