如何在列表中扫描DynamoDB中的文本?

时间:2018-08-08 12:53:57

标签: php amazon-dynamodb dynamodb-queries

在DynamoDB中,我有一个具有以下结构的表。
actions“字段”包含所有信息(这是我要搜索的字段),orderId是主键

{
  "actions": [
    {
      "actionDescription": "8f23029def1d6baa4",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533730680,
      "user": {
        "fullName": "XXXXX",
        "userName": "xxxxx@xxxx.xxx",
      }
    },
    {
      "actionDescription": "21857e61037bc29ec",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731788,
      "user": {
        "fullName": "XXXXX",
        "userName": "xxxxx@xxxx.xxx",
      }
    },
    {
      "actionDescription": "cf10abd44e24cef56",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731788,
      "user": {
        "fullName": "XXXXX",
        "userName": "xxxxx@xxxx.xxx",
      }
    },
    {
      "actionDescription": "7787fe7a5bf4d22de",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731789,
      "user": {
        "fullName": "OOOOOO",
        "userName": "ooooo@oooo.ooo",
      }
    },
    {
      "actionDescription": "9528c439021f504bf",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731789,
      "user": {
        "fullName": "XXXXX",
        "userName": "xxxxx@xxxx.xxx",
      }
    },
    {
      "actionDescription": "bfba100e0e54934b2",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731789,
      "user": {
        "fullName": "XXXXX",
        "userName": "xxxxx@xxxx.xxx",
      }
    },
    {
      "actionDescription": "f789dc12f1dbe3be2",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731789,
      "user": {
        "fullName": "OOOOOO",
        "userName": "ooooo@oooo.ooo",
      }
    },
    {
      "actionDescription": "4cd6b68dfea7cf8ee",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731789,
      "user": {
        "fullName": "XXXXX",
        "userName": "xxxxx@xxxx.xxx",
      }
    },
    {
      "actionDescription": "1e3a0e95f8e5106d7",
      "actionTitle": "UNDEFINED_ACTION",
      "timestamp": 1533731790,
      "user": {
        "fullName": "OOOOOO",
        "userName": "ooooo@oooo.ooo",
      }
    }
  ],
  "orderId": "13aae31"
}

我想做的是使PHP中的扫描词能够通过userName进行搜索。或action数组内的任何字段(时间戳,actionTitle等)。
波纹管是我尝试使用的许多术语之一,但我无法获得任何结果

$params = [
 'TableName'                 => $this->tableName,
 'FilterExpression'          => "userName = :searchTerm",
 'ExpressionAttributeValues' => [
     ':searchTerm' => 'ooooo@oooo.ooo',
  ],
 'ReturnConsumedCapacity'    => 'TOTAL',
];
$results = $this->dynamoDbClient->scan($params);

您能告诉我我失踪了吗?
另外,请注意:我不想获取特定的orderId,我想获取所有包含searchTerm的orderIds(在这种情况下为userName

3 个答案:

答案 0 :(得分:3)

此项目模式的最佳选择是自己过滤表格项目。也就是说,不使用过滤器表达式扫描表,然后编写自己的代码以过滤结果。不使用过滤器表达式的扫描将消耗相同数量的读取容量单位。

您可以将过滤器表达式设置为类似的内容,但这是不可扩展的,并且仅在操作列表中有固定数量的项目时才有效。

  actions[0].user.userName == :searchTerm OR actions[1].user.userName == :searchTerm OR actions[2].user.userName == :searchTerm OR ....

如果您需要复杂的搜索功能,最好使用专用的搜索数据库。 AWS为此提供了两项服务,即AWS CloudSearch和AWS ElasticSearch。您可以使用DynamoDB流来保持搜索索引为最新。

如果您打算使用过滤器扫描DynamoDB表,则可以重构结构以在一个集合(或串联字符串)中包含具有所有可搜索信息的其他属性

{
  "actions": [....],
  "actionsDescriptions": Set["8f23029def1d6baa4", "21857e61037bc29ec", "cf10abd44e24cef56", "7787fe7a5bf4d22de", "9528c439021f504bf", "bfba100e0e54934b2", "f789dc12f1dbe3be2", "4cd6b68dfea7cf8ee", "1e3a0e95f8e5106d7"],
  "actionTitles": Set["UNDEFINED_ACTION"],
  "timestamps": Set[1533730680, 1533731788, 1533731789, 1533731790],
  "user_fullNames": Set["XXXXX"],
  "user_userNames": Set["ooooo@oooo.ooo", "xxxxx@xxxx.xxx"],
  "orderId": "13aae31"
}

请注意,由于contains函数仅适用于字符串和集合,因此必须使用Set(或将所有值连接成字符串)。

然后您可以使用这样的过滤器表达式

contains(user_userNames, :searchTerm)

答案 1 :(得分:0)

DynamoDB QueryFilterScanFilter选项当前不支持地图的CONTAINS运算符。您需要构建另一个以userName索引的查找表,以避免扫描整个表。

例如新表架构:

{
  "userName": "xxxxx@xxxx.xxx"
  "orderId": "13aae31"
}

其中哈希键为userName,而orderId是另一个表中订单的ID。

与当前架构最接近的是使用@cementblocks的建议来扫描整个表并过滤应用程序侧或分别查询列表中的每个元素。

答案 2 :(得分:0)

如果要在应用程序中添加类似“搜索”的功能,则扫描可能不是最佳方法。

DynamoDB扫描可能既昂贵又缓慢,尤其是当您有很多行时。

因此,如果您打算添加“搜索”功能,则可以考虑使用AWS CloudSearch。它是可扩展的“搜索”功能。您可以从DynamoDB表中快速启用“搜索”。