我想抓取网站并将内容存储在我的计算机上以供日后分析。但是我的OS文件系统对子目录的数量有限制,这意味着存储原始文件夹结构不起作用。
连连呢?
将网址映射到某个文件名,以便可以平展存储?或者只是将其推送到像sqlite这样的数据库中以避免文件系统限制?
答案 0 :(得分:3)
这一切都取决于您打算抓取的文本和/或网页的有效数量。通用解决方案可能是
这种方法的优点是DBMS仍然很小,但可用于SQL驱动的查询(ad-hoc或编程性质)来搜索各种标准。在SQL服务器本身中存储许多/大文件通常几乎没有收获(并且很多令人头痛)。此外,当每个页面被处理/分析时,可以将额外的元数据(例如标题,语言,大多数重复的5个单词,等等)添加到数据库中。
答案 1 :(得分:1)
将其置于数据库中将有助于搜索内容和页面元数据。您还可以尝试内存数据库或“memcached”,如存储,以加快速度。
答案 2 :(得分:1)
根据将进行数据挖掘的PC的处理能力,您可以将已删除的数据添加到可压缩存档(如7zip,zip或tarball)中。您将能够保持目录结构的完整性并最终节省大量磁盘空间 - 如果这恰好是一个问题。
另一方面,像SqLite这样的RDBMS会非常快速地爆发,但不会想到可笑的长目录层次结构。