需要托管8000万个tiff文件(每个1000 KB),其中一些大约10 Terrabytes,这将是最好的文档管理解决方案。这些文件需要位于文件系统上,但希望通过文档管理系统(Sharepoint,Documentum,Filenet等)进行索引。我们已经有CSV格式的索引,并希望重用这些索引,而不是通过8000万个文件进行爬网并重新创建索引。
答案 0 :(得分:1)
SharePoint 2010可以处理大型文档库 - 可以在WSS3 / MOSS2007版本下完成,并进行一些仔细的规划和架构。
我对Documentum并不是很熟悉,但在SharePoint领域,我会创建一个自定义内容类型,将CSV的字段映射到SharePoint的字段,然后提供一个(或更多,分解但有意义)文档库使用新类型。有了这么多数据,我会认真考虑将其分解为多个网站集和/或查看Remote Blob Storage API:http://technet.microsoft.com/en-us/magazine/2009.06.insidesharepoint.aspx
答案 1 :(得分:0)
我认为最好将索引传输到SQL Server等数据库,并将文件保存在文件系统中。然后可以在这些索引上构建DMS(文件上载/访问等)。
答案 2 :(得分:-2)
我会看看像Hadoop这样的东西。可以在Amazon Elastic Compute Cloud(EC2)和Amazon Simple Storage Service(S3)上运行Hadoop。 看看Hadoop指的是 “纽约时报”如何使用100个Amazon EC2实例和一个Hadoop应用程序在24小时内将4TB原始图像TIFF数据(存储在S3中)处理成1100万个已完成的PDF,计算成本约为240美元(不是包括带宽)。[14]