到目前为止,我已经使用MySQL做了很多事情,但我不喜欢手动分片我的数据并且现在维持所有这些的想法。
我想建立一个像Facebook和WhatsApp这样的聊天应用程序,如下图所示:
所以我们这里有两个部分。正确的部分是聊天线程中的所有消息,左侧部分显示聊天线程,其中包含来自上一条消息的信息,以及您的聊天伙伴信息,如姓名和图像等。
到目前为止,这就是我所拥有的:
Cassandra非常擅长写作和阅读。但不是因为墓碑而删除数据。并且您不希望将gc_grace_seconds
设置为0,因为如果某个节点发生故障并且发生了删除,那么在修复完成后该删除的行可能会恢复生命。因此,我们可能会在节点进入群集之前从节点中删除所有数据。无论如何,正如我所理解的,Cassandra对于这个聊天应用程序的正确部分是完美的。由于消息将按插入时间进行存储和排序,并且排序永远不会改变。所以你只需要写和阅读。这就是卡桑德拉擅长的。
我有这些表来存储正确部分的消息:
CREATE TYPE user_data_for_message (
from_id INT,
to_id INT,
from_username TEXT,
to_username TEXT,
from_image_name TEXT,
to_image_name TEXT
);
CREATE TABLE message_by_thread_id (
message_id TIMEUUID,
thread_id UUID,
user_data FROZEN <user_data_for_message>,
message TEXT,
created_time INT,
is_viewed BOOLEAN,
PRIMARY KEY (thread_id, message_id)
) WITH CLUSTERING ORDER BY (message_id DESC);
在插入新消息之前,如果客户端没有提供thread_id,我可以检查两个用户之间是否存在线程。我可以存储这样的信息:
CREATE TABLE message_thread_by_user_ids (
thread_id UUID,
user1_id INT,
user2_id INT,
PRIMARY KEY (user1_id, user2_id)
);
我可以为user1和user2颠倒顺序的每个线程存储两行,这样我只需要执行1次读取来检查是否存在。由于我不想在每次插入之前检查是否存在线程,因此我可以首先检查Redis中的用户之间是否存在线程,因为它在内存中并且速度更快。
我可以在Redis中保存上面相同的信息(不像我在Cassandra中那样,但是一种节省内存的方法。我们可以做两次GET来检查它):
SET user:1:user:2:message_thread_id 123e4567-e89b-12d3-a456-426655440000
所以在我发送消息之前,我可以先检查Redis是否在两个用户之间存在线程。如果在Redis中找不到,我可以检查Cassandra,(如果Redis服务器在某些时候停机并且没有保存它),并且如果存在线程只是使用该thread_id插入新消息,如果没有则创建线程,然后将其插入表中:
message_thread_by_user_ids
使用上面的SET命令将其插入Redis。最后将消息插入:
message_by_thread_id
好的,现在是棘手的部分。聊天的左侧部分没有静态排序顺序。订单一直在变化。如果对话有新消息,那么该对话将转到顶部。所以我没有找到一个很好的方法来在Cassandra中对此进行建模而不进行删除和插入。我必须删除一行然后插入它,以便表重新排序行。要删除一行并在表格中插入一行,每次发送消息对我来说都不是一个好主意,但我可能错了,我对Cassandra没有经验。
所以我的想法是我可以使用Redis作为左侧部分,但唯一的问题是如果Redis服务器出现故障,那么左侧最近的聊天对话将会丢失,即使聊天本身也是如此保存在卡桑德拉。用户需要重新发送消息才能再次显示对话。
我以为我可以通过以下方式在Redis中执行此操作:
每次用户发送消息时,例如,如果用户1向用户2发送消息,我可以这样做:
ZADD user:1:message_thread_ids 1510624312 123e4567-e89b-12d3-a456-426655440000
ZADD user:2:message_thread_ids 1510624312 123e4567-e89b-12d3-a456-426655440000
有序集将跟踪线程的id,其中最近活动的对话按unix时间戳排序。
但是另一个问题是每次加载这个窗口时我都要做ZRANGE,例如在左侧获得20个最近的对话,然后在Cassandra中用LIMIT 1做20个单独的SELECT语句来获得有关最后发送的消息的信息,可能效率不高。我想我可以使用HMSET保存redis中20个最近活动对话的最后一条消息的信息,其中包含最相关的信息,例如消息本身仅减少到60个字符,last_message timestamp,from_username,to_username,from_id,to_id,from_image, to_image和message_id。
HMSET thread:123e4567-e89b-12d3-a456-426655440000 <... message info ...>
但是现在我必须跟踪并删除Redis中不相关的哈希映射,因为我不想保留超过最近的20,因为它会快速耗尽内存。我将从Redis和内存中获取最新的20个,如果用户向下滚动,那么我将从Cassandra一次获得10个。另一个问题是,如果Redis服务器出现故障,如果对话是一个全新的对话,我可能会从应用程序的左侧松开对话。
我认为通过这种方法,我可以通过添加新节点在Cassandra方面每秒获得大量写入,而Redis可以执行每秒20万到800 000次操作,因此可以删除并添加到排序集中的内容不应该是一个限制。由于Redis服务器会有一些来回,我可以尝试管理Redis命令或编写Lua脚本,以便我可以一次性向Redis发送指令。
这是个好主意吗?如何解决显示活动对话的应用程序左侧的此问题?像我建议的那样在Redis中做这个或者我应该采用不同的方式吗?
答案 0 :(得分:1)
两者都是很好的解决方案。但哪里可能成为瓶颈?
1)Redis仅限于内存,不能超过它。此外,当服务器关闭时,您将丢失数据。
2)当涉及到缩放时,redis使用带有分片的主从拓扑,而Cassandra使用环形拓扑,其中每个节点都等于写入和读取。
在我看来,我宁愿使用Cassandra,因为它知道它不像Redis那么快但速度快且非常容易扩展。
这是个好主意吗?如何解决显示活动对话的应用程序左侧的此问题?像我建议的那样在Redis中做这个或者我应该采用不同的方式吗?
你的用户如何互相写作,我想你是用websocket做的,不是吗?如果是,则只需跟踪套接字ID,并在套接字断开连接时将其删除。
另一个问题是,您在哪里以及如何检索某个人的朋友ID(图片左侧)?