面试 | 面向行的数据库VS面向列的数据库

网友投稿 765 2023-03-29

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

面试 | 面向行的数据库VS面向列的数据库

总览

数据库的数据存储有两种类型,一种是面向行的(row-oriented)数据库,另一种是面向列的(column-oriented )数据库。

面向行(事务型) 数据库

该类数据库是根据记录(record)组织数据的,将所有与记录相关联的数据保存在内存中。面向行的数据库是组织数据的传统方式,并且为快速存储数据提供了一些关键优势。它们经过优化,可以高效地读取和写入行。

常见的面向行的数据库:

PostgreSQLMySQL

优点

行存储的写入是一次性完成,消耗的时间比列存储少,并且能够保证数据的完整性;insert/update更容易

缺点

没有索引的查询会产生大量的I/O建立索引需要花费大量时间和资源面对查询的需求,数据库必须被大量膨胀才能满足性能的需求

面向列(分析型) 数据库:

该类数据库是按字段组织数据的,在内存中将所有与字段相关联的数据保存在一起。该类数据库在读取和计算列有明显的优势。

常用的面向列的数据库

AWS RedShiftGoogle BigQueryHBase

优点

只查询涉及的列,会大量降低系统I/O,适合并发查询数据类型一致,数据特征相似,能对数据进行高效压缩非常适合做聚合操作

缺点

缺乏数据完整性保证,写入效率低不适合频繁delete/update操作

面向行的数据库

传统的关系型数据库管理系统(DBMS)都是面向行的。在行存储或面向行的数据库中,数据是逐行存储的,这样,行的第一列将挨着前一行的最后一列。

比如,有下面的一张表

这些数据将被存储在一个面向行的数据库中的一个磁盘上,按照下面这样的顺序一行一行的排列:

这允许数据库快速写入一行,因为要写入数据,只需在数据的末尾添加另一行即可。

面向行的数据库仍然通常用于联机事务处理(OLTP)的应用程序,因为它们可以很好地管理对数据库的写操作。对于联机分析处理(OLAP)的场景需要一个支持特定数据查询的数据库。这就是面向行的数据库比面向列的数据库慢的地方。

读取面向行的数据库

面向行的数据库检索行或一组行的速度很快,但在执行聚合时,它将额外的数据(列)带入内存,这比只选择要执行聚合的列要慢。此外,面向行的数据库可能需要访问的磁盘数量通常更多。

因此,我们可以看到,虽然向面向行的数据库添加数据是快速和简单的,但从中获取数据可能需要使用额外的内存和访问多个磁盘。

面向列的数据库

数据仓库的创建是为了支持数据分析。这些类型的数据库通常对数据读取做了优化。

在面向列的数据库中,数据的存储形式为列中的每一行都挨着同一列中的其他行。

仍然以上面的表为例:

一个表一次存储一列,按照一行一行的顺序排列:

写入面向列的数据库

如果我们想要添加一个新记录,必须先定位数据的位置(比如HBASE的三级寻址),将每一列插入到它应该在的位置。

如果数据存储在一个单独的磁盘上,那么它将有与面向行的数据库相同的额外内存问题,因为它需要将所有内容都放入内存中。但是,当存储在单独的磁盘上时,面向列的数据库将有很大的好处。

从面向列的数据库中读取

只需要计算需要的列,减少磁盘扫描,减少不必要的内存开销,只需要访问极少数量的磁盘。

附录(SQL知识大图)

上一篇:次贷罗网,运维部门何去何从
下一篇:告警和故障分析报告模板(故障告示怎么写)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~