Redis——基础数据结构

Redis 基本数据结构

Redis 有 5 种基础数据结构,分别为:string (字符串)、list (列表)、set (集合)、hash (哈 希) 和 zset (有序集合)。

string 字符串

字符串 string 是 Redis 最简单的数据结构。Redis 所有的数据结构都是以唯一的 key 字符串作为名称,然后通过这个唯一 key 值来获取相应的 value 数据。不同类型的数据结 构的差异就在于 value 的结构不一样。

Redis 的字符串是动态字符串,是可以修改的字符串,内部结构实现上类似于 Java 的 ArrayList,采用预分配冗余空间的方式来减少内存的频繁分配。

当字符串长度小于 1M 时, 扩容都是加倍现有的空间,如果超过 1M,扩容时一次只会多扩 1M 的空间。需要注意的是 字符串最大长度为 512M。

如果 value 值是一个整数,还可以对它进行自增操作。自增是有范围的,它的范围是signed long 的最大最小值,超过了这个值,Redis 会报错。自增操作incr

字符串是由多个字节组成,每个字节又是由 8 个 bit 组成,如此便可以将一个字符串看 成很多 bit 的组合,这便是 bitmap「位图」数据结构。

list 列表

Redis 的列表相当于 Java 语言里面的 LinkedList,注意它是链表而不是数组。这意味着 list 的插入和删除操作非常快,时间复杂度为 O(1),但是索引定位很慢,时间复杂度为 O(n),这点让人非常意外。

当列表弹出了最后一个元素之后,该数据结构自动被删除,内存被回收。

Redis 的列表结构常用来做异步队列使用将需要延后处理的任务结构体序列化成字符串塞进 Redis 的列表,另一个线程从这个列表中轮询数据进行处理。

1
2
3
4
5
6
7
8
9
# 相关操作
rpush books python java golang # 右入
rpop books # 右出
lpop books # 左出
lpush books c++ # 左入

lindex books 1 # 按下标取
lrange books 0 -1 # 遍历
ltrim books 1 -1 # 截取

探究list底层数据结构

如果再深入一点,你会发现 Redis 底层存储的还不是一个简单的 linkedlist,而是称之为快速链表 quicklist 的一个结构。

首先在列表元素较少的情况下会使用一块连续的内存存储,这个结构是 ziplist,也即是压缩列表它将所有的元素紧挨着一起存储,分配的是一块连续的内存当数据量比较多的时候才会改成 quicklist。**因为普通的链表需要的附加指针空间太大,会比较浪费空间,而且会加重内存的碎片化。**比如这个列表里存的只是 int 类型的数据,结构上还需要两个额外的指针 prev 和 next。所以 Redis 将链表和 ziplist 结合起来组成了 quicklist。也就是将多个 ziplist 使用双向指针串起来使用。这样既满足了快速的插入删除性能,又不会出现太大的空间冗余。

hash 字典

Redis 的字典相当于 Java 语言里面的 HashMap,它是无序字典。内部实现结构上同 Java 的 HashMap 也是一致的,同样的数组 + 链表二维结构。第一维 hash 的数组位置碰撞时,就会将碰撞的元素使用链表串接起来。

不同的是,Redis 的字典的值只能是字符串,另外它们 rehash 的方式不一样,因为 Java 的 HashMap 在字典很大时,rehash 是个耗时的操作,需要一次性全部 rehash。Redis 为了高性能,不能堵塞服务,所以采用了渐进式 rehash 策略。

渐进式 rehash 会在 rehash 的同时,保留新旧两个 hash 结构,查询时会同时查询两个 hash 结构,然后在后续的定时任务中以及 hash 的子指令中,循序渐进地将旧 hash 的内容 一点点迁移到新的 hash 结构中。

当 hash 移除了最后一个元素之后,该数据结构自动被删除,内存被回收。

使用示例:hash 结构也可以用来存储用户信息,不同于字符串一次性需要全部序列化整个对象, hash 可以对用户结构中的每个字段单独存储。这样当我们需要获取用户信息时可以进行部分获取。而以整个字符串的形式去保存用户信息的话就只能一次性全部读取,这样就会比较浪费网络流量。

hash 也有缺点,hash 结构的存储消耗要高于单个字符串,到底该使用 hash 还是字符 串,需要根据实际情况再三权衡。

1
2
3
4
5
6
7
8
# 相关操作
hset books java "think in java"
hset books golang "concurrency in go"
hset books python "python cookbook"
hgetall books # 查询hash所有kv, key 和 value 间隔出现
hget books java # 查询单个
hset books golang "learning go programming" #更新
hmset books java "effective java" python "learning python" golang "modern golang programming" # 批量 set

hash 的 value 也支持自增,指令hincrby user-laoqian age 1

set 集合

Redis 的集合相当于 Java 语言里面的 HashSet,它内部的键值对是无序的唯一的。它的内部实现相当于一个特殊的字典,字典中所有的 value 都是一个值 NULL

当集合中最后一个元素移除之后,数据结构自动删除,内存被回收。 set 结构可以用来存储活动中奖的用户 ID,因为有去重功能,可以保证同一个用户不会中奖两次。

1
2
3
4
5
sadd books java # 添加
smembers books # 全部显示
sismember books java # 查询某个 value 是否存在
scard books # 获取长度相当于 count()
spop books # 弹出一个

zset 有序集合(特色)

zset 可能是 Redis 提供的最为特色的数据结构,它也是在面试中面试官最爱问的数据结构。它类似于 Java 的 SortedSet 和 HashMap 的结合体,一方面它是一个 set,保证了内部 value 的唯一性,另一方面它可以给每个 value 赋予一个 score,代表这个 value 的排序权重它的内部实现用的是一种叫着「跳跃列表」的数据结构。

zset 中最后一个 value 被移除后,数据结构自动删除,内存被回收。

使用示例

zset 可以用来存粉丝列表,value 值是粉丝的用户 ID,score 是关注时间。我们可以对粉丝列表按关注时间进行排序。

zset 还可以用来存储学生的成绩,value 值是学生的 ID,score 是他的考试成绩。我们可以对成绩按分数进行排序就可以得到他的名次。

1
2
3
4
5
6
7
8
9
10
11
zadd books 9.0 "think in java" # 新增
zadd books 8.9 "java concurrency" # 新增

zrange books 0 -1 # 按 score 排序列出,参数区间为排名范围
zrevrange books 0 -1 # 按 score 逆序列出,参数区间为排名范围
zcard books # 相当于 count()
zscore books "java concurrency" # 获取指定 value 的 score,内部 score 使用 double 类型进行存储,所以存在小数点精度问题
zrank books "java concurrency" # 获取排名
zrangebyscore books 0 8.91 # 根据分值区间遍历 zset
zrangebyscore books -inf 8.91 withscores # 根据分值区间 (-∞, 8.91] 遍历 zset,同时返回分值。inf 代表 infinite,无穷大的意思。
zrem books "java concurrency" # 删除 value

跳跃列表

我们需要这个链表按照 score 值进行排序。这意味着当有新元素需要插入时,要定位到 特定位置的插入点,这样才可以继续保证链表是有序的。通常我们会通过二分查找来找到插 入点,但是二分查找的对象必须是数组,只有数组才可以支持快速位置定位,链表做不到, 那该怎么办?【设置层级】

跳跃列表就是类似于公司发展过程中“创始人-部门-小组”层级制,最下面一层所有的元素都会串起来。然后每隔几个元素挑选出一个代表来,再将这几个代表使用另外一级指针串起来。然后在这些代表里再挑出二级代表,再串起来。最终就形成了金字塔结构。

跳跃列表结构

排序插入过程:定位插入点时,先在顶层进行定位,然后下潜到下一级定位,一直下潜到最底层找到合适的位置,将新元素插进去。

容器型数据结构的通用规则:

list/set/hash/zset 这四种数据结构是容器型数据结构

  • create if not exists
  • drop if no elements

另:Redis 所有的数据结构都可以设置过期时间,时间到了,Redis 会自动删除相应的对象。 需要注意的是过期是以对象为单位,比如一个 hash 结构的过期是整个 hash 对象的过期, 而不是其中的某个子 key。