我有500MB的数据可用于云搜索。
以下是我尝试过的选项:
直接从控制台上传:
试图对文件进行升级,限制为5 MB。
然后将文件上传到S3并选择S3选项,
上传到S3并在控制台中提供S3网址:
失败,并要求尝试命令行。
尝试使用命令行
aws cloudsearchdomain上传文档--endpoint-url http://endpoint --content-type application / json --documents s3://bucket/cs.json
Error parsing parameter '--documents': Blob values must be a path to a file.
确定,将文件从s3复制到本地并尝试上传,
尝试使用本地文件和cli:
aws cloudsearchdomain上传文档--endpoint-url http://endpoint --content-type application / json --documents ./cs.json
在我们收到来自端点URL“ http://endpoint/2013-01-01/documents/batch?format=sdk”的有效响应之前,连接已关闭。
是否要使CloudSearch正常工作?
答案 0 :(得分:2)
据我了解的问题,这与问题标题无关的Cloudsearch的可伸缩性,而是有关上传的限制以及如何将大文件上传到Amazon Cloudsearch中。
最佳和最佳解决方案是通过分块上传数据。 将文档分成几批,然后成批上传数据。 (但请记住相关的限制)
这样做的好处是,如果您要提交多个文档,请在一次调用中提交所有文档,而不是始终提交大小为1的批次。AWS建议分组(最大5 mb)并发送一个调用。我认为,每1,000个批次的呼叫需要花费$ 0.10,因此分组还可以节省一些钱。
这对我有用。下面给出了一些指南,可以帮助您更好地解决该问题。
指南。
在上载文档之前将其分组。连续上传仅包含一个文档的批次会对Amazon CloudSearch处理更新的速度产生巨大的负面影响。而是创建尽可能接近限制的批次,并减少上载频率。 (限制在下面说明)
要将数据上传到您的域,必须将其格式化为有效的 JSON 或 XML 批处理
现在,让我解释一下与文件上传有关的limitations associated with Amazon Cloud search。
1)批处理大小:
最大批处理大小为5 MB
2)文档大小
最大文档大小为1 MB
3)文档字段
文档的字段不能超过200个
4)数据加载量
您可以每10秒(大约10,000个)加载一批文档 每24小时进行批处理),每个批处理大小最大为5 MB。
但是,如果您想增加限制,可以联系Amazon CloudSearch。目前,亚马逊不允许增加上传大小的限制。
如果您需要增加的最大数量,可以提交请求 搜索域的分区。有关增加其他的信息 限制,例如搜索域的最大数量,联系亚马逊 CloudSearch 。