物联网领域近期如火如荼,互联网和传统公司争相布局物联网。作为物联网领域数据存储的首选,时序数据库也越来越多进入人们的视野,而早在 2016 年 7 月,百度云在其天工物联网平台上发布了国内首个多租户的分布式时序数据库产品TSDB,成为支持其发展制造,交通,能源,智慧城市等产业领域的核心产品,同时也成为百度战略发展产业物联网的标识表记标帜性事件。
前文提到低成本的存储是时序数据库需要解决的一个主要问题,而上一篇文章介绍了通过针对时序数据的压缩方法,从利用数据自己特征的方面,降低时序数据的存储成本。
本文将介绍通过对数据进行分级存储,从使用差别存储介质,以及减少数据的副本数的方面,介绍如安在保证时序数据的查询性能的前提下,降低时序数据的存储成本。
1.分级存储
分级存储,就是按某一特征,将数据划分为差别的级别,每个级另外数据存储在差别成本的存储介质上。为什么需要对数据进行分级存储?为什么不把所有的数据都存储在最自制的存储介质上?这是因为在降低存储成本的同时,还需要保证数据拜候的性能(我们知道,存储介质的读写性能与成本一般成正比),分级存储是对两者比较好的平衡方法。分级存储的这一思想也表现在计算机的体系结构里(寄存器、L1/L2
Cache、内存、硬盘)。
2.时序数据的分级存储
时序数据应该按什么特征进行分级呢?时序数据的时间戳是一种非常合适的分级依据,越近期的数据查询得越多,是热数据;越久以前的数据查询得越少,是冷数据。例如,用户会经常查询一个设备的最新温度,或者查看这个设备比来 1 小时或者比来 1 天的温度曲线;很难想象用户会经常查询一个设备 1 年前的温度,这些 1 年前的数据一般会用于大数据分析或者机器学习中,而这些批处理的场景一般对查询的延时不会像交互式场景那么敏感。
如图 1 所示,一般可以将时序数据分为 3 级,第一级是比来 1 天的数据生存在内存缓存Cache中,第二级是比来 1 年的数据存储在固态硬盘SSD中,第三级是 1 年以上的数据存储在机械硬盘HDD中。Cache中的数据可以使用写回(write
back)或者写通(write
through)的策略写入SSD,而SSD中的数据可以通过后台程序按期批量的迁移到HDD。为了保证数据持久性,一般会为数据生存 2 个或者 3 个副本,通过EC编码可以将副本数降低到1. 5 甚至更低,但却不影响数据的持久性。不过EC编码会消耗更多的CPU和网络带宽,进而影响查询性能,因此一般只应用在存储冷数据的HDD上。
图1 时序数据的分级存储
3.内存缓存
时序数据库大部分请求的数据都集中在比来 1 天,将这些数据生存在内存中,可以保证这些数据能被快速的读取。虽然内存的拜候速度快,但是成本很高(价格大约比SSD高一个数量级),而且容量有限。因此需要对数据进行压缩,以减少每个数据的内存占用,压缩相关的内容已经在上一篇文章中进行了介绍,在这里不再赘述。另一方面,由于内存中的数据是易失的、非持久化的,一旦重启进程或者重启机器后就会丢失,如果不恢复数据,所有请求将落到下一级的存储上,对下一级存储造成巨大的压力。因此一般会在写入内存的同时写入当地硬盘,在重启后重新加载到内存中。
Beringei(注1)是Facebook开源的一款内存时序数据库,是Facebook颁发的Gorilla论文(注2)的开源实现。Beringei使用一种三级的内存数据结构,如图 2 所示,其中第一级为分片索引,第二级为时间序列索引,第三级为时序数据,通过该数据结构可以支持快速的数据读写;Beringei实现了一种高效的流式的压缩算法,从而使内存占用最小化;Beringei支持写入内存的同时写入硬盘,并在重启后恢复数据。然而Beringei也有一些限制,譬如只支持浮点型数值、时间精度只到秒、只能定时间戳挨次的写入数据。
图2 Beringei的内存数据结构(注2)
4.SSD与HDD
用户有时会关注时序数据在过去 1 周、过去 1 个月、过去 1 年的趋势,把比来 1 年的数据存储在固态硬盘SSD上,可以实现在秒级甚至亚秒级读取过去 1 年的数据。而 1 年以上的时序数据则很少用于交互式查询,这些数据往往会用于大数据分析或者机器学习,这些批处理场景对查询的延时不会像交互式场景那么敏感,因此可以把这些 1 年以上的数据存储在机械硬盘HDD上。