AWS Cloudsearch是否可扩展?

时间:2019-01-15 02:07:03

标签: amazon-web-services amazon-s3 amazon-cloudsearch

我有500MB的数据可用于云搜索。

以下是我尝试过的选项:

直接从控制台上传:

试图对文件进行升级,限制为5 MB。

然后将文件上传到S3并选择S3选项,

上传到S3并在控制台中提供S3网址

失败,并要求尝试命令行。

尝试使用命令行

  

aws cloudsearchdomain上传文档--endpoint-url http://endpoint   --content-type application / json --documents s3://bucket/cs.json

Error parsing parameter '--documents': Blob values must be a path to a file.

确定,将文件从s3复制到本地并尝试上传,

尝试使用本地文件和cli:

  

aws cloudsearchdomain上传文档--endpoint-url http://endpoint   --content-type application / json --documents ./cs.json

在我们收到来自端点URL“ http://endpoint/2013-01-01/documents/batch?format=sdk”的有效响应之前,连接已关闭。

是否要使CloudSearch正常工作?

1 个答案:

答案 0 :(得分:2)

据我了解的问题,这与问题标题无关的Cloudsearch的可伸缩性,而是有关上传的限制以及如何将大文件上传到Amazon Cloudsearch中。

最佳和最佳解决方案是通过分块上传数据。 将文档分成几批,然后成批上传数据。 (但请记住相关的限制)

这样做的好处是,如果您要提交多个文档,请在一次调用中提交所有文档,而不是始终提交大小为1的批次。AWS建议分组(最大5 mb)并发送一个调用。我认为,每1,000个批次的呼叫需要花费$ 0.10,因此分组还可以节省一些钱。

这对我有用。下面给出了一些指南,可以帮助您更好地解决该问题。


将数据上传到Amazon Cloudsearch时要遵循的

指南

  1. 在上载文档之前将其分组。连续上传仅包含一个文档的批次会对Amazon CloudSearch处理更新的速度产生巨大的负面影响。而是创建尽可能接近限制的批次,并减少上载频率。 (限制在下面说明)

  2. 要将数据上传到您的域,必须将其格式化为有效的 JSON XML 批处理


现在,让我解释一下与文件上传有关的limitations associated with Amazon Cloud search

1)批处理大小:

  

最大批处理大小为5 MB

2)文档大小

  

最大文档大小为1 MB

3)文档字段

  

文档的字段不能超过200个

4)数据加载量

  

您可以每10秒(大约10,000个)加载一批文档   每24小时进行批处理),每个批处理大小最大为5 MB。

但是,如果您想增加限制,可以联系Amazon CloudSearch。目前,亚马逊不允许增加上传大小的限制。

  

如果您需要增加的最大数量,可以提交请求   搜索域的分区。有关增加其他的信息   限制,例如搜索域的最大数量,联系亚马逊   CloudSearch