返回顶部
首页 > 资讯 > 数据库 >SQL Server内置的HTAP技术
  • 121
分享到

SQL Server内置的HTAP技术

SQLServer内置的HTAP技术 2017-11-19 05:11:20 121人浏览 才女
摘要

SQL Server内置的HTAP技术 目录 背景 sql Server在OLAP上的发展 SQL Server的初代HTAP SQL Server逐渐增强的HTAP SQL Server列存总结 HTAP发展       背景 20

SQL Server内置的HTAP技术

SQL Server内置的HTAP技术

目录

  • 背景
  • sql Server在OLAP上的发展
  • SQL Server的初代HTAP
  • SQL Server逐渐增强的HTAP
  • SQL Server列存总结
  • HTAP发展

 

 

 

背景

2005年,Gartner正式提出了HTAP这一概念,并且迅速引起了一些企业的关注,被视为是未来数据发展的重要趋势之一。

到了2014年,Gartner又对HTAP数据库给出了明确的定义:混合事务/分析处理(HTAP)是一种新兴的应用体系结构,兼容两种业务场景。

混合负载(HTAP Hybrid Transactional/Analytical Processing)是在保留原有在线交易功能的同时,强调了数据库原生计算分析的能力。

HTAP体系架构解决的一个问题是 传统的数据仓库数据分析的时效性问题,传统数据仓库架构需要用ETL工具从各种业务数据源(oltp)抽取数据到数据仓库(olap)进行跑批分析,这个时效大概是T+1。

传统数据类项目,如数据仓库、数据集市等其他数据应用类项目有跑批日期的概念,即在T+1日跑T日的交易数据,直白的说就是在第二天跑昨天的交易。

T指的是每天或者每一个交易日,我们经常说的跑批日期也是T日的数据。

无论是过去的传统数仓,还是现在的大数据技术栈,都存在这个时效性问题。HTAP体系架构的做法是,同时支持OLTP和OLAP场景,基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去费时的ETL过程。

 

 

 

SQL Server在OLAP上的发展

过去,SQL Server自带完整的数仓服务套件 ,方便用户搭建传统数仓,SQL Server企业版和数据中心版本身提供了三个服务

  • 做数据ETL的SQL Server集成服务(SSIS)
  • 做报表的SQL Server报表服务(SSRS)
  • 做数据多维分析的SQL Server 分析服务(SSAS   olap引擎)

相信大家在SQL Server安装界面看到过上面几个服务的安装选项。

后来,为了处理更大的数据量,微软推出SQL Server并行数据仓库(PDW),使用多个SQL Server数据库服务器在大规模并行处理架构下存储和处理数据。

再到最近十年,随着大数据技术栈发展迅猛,微软推出PolyBase用来整合SQL Server和hadoop

但是,以上技术还是需要ETL过程,存在时效性问题。

 

 

SQL Server的初代HTAP

初代HTAP首次出现在SQL Server2012版本,最初设计的目标,仅仅为了在OLTP中提供数仓场景下的OLAP能力,让用户可以直接在一个DBMS的行存表上建列存索引然后执行分析型负载,省去费时的ETL过程。

面对这样的目标,SQL Server2012提供的是一个面向OLAP的列存引擎,对应上层的接口就是Read-Only Columnstore Index,即在一个行存表上建立列存索引之后,这个表变为只读。

列存的存储格式很简单,每100万行组成一个Row Group,Row Group中每一个字段组成一个Column Segment,每个Column Segment的元数据存储在系统表中。列存索引只提供全表扫描。

 

图3-1

这样的设计,有两个问题:

  1. 整个表都不支持更新,只读状态
  2. 列存索引只能是非聚集列存索引,不能是聚集列存索引

 

 

SQL Server逐渐增强的HTAP

到了SQL Server2014和SQL Server2016这两个版本,微软逐渐增强了列存引擎的能力,解决了初代HTAP的两个缺点,开始支持更新,并支持表中只有列索引一份数据即聚集列存索引。

这时候,一个数据库融合了3种存储引擎,分别是:

  • Apollo引擎:列存引擎,面向olap
  • 传统引擎:行存引擎,面向oltp,B+树或堆结构
  • hekaton引擎:纯内存行存引擎,面向oltp ,bwtree结构

 

图4-1

图4-2

 

为了支持更新,SQL Server引入了delta store、delete flag、rowid。

Delete Flag

在列存索引里删除一行数据时,实际上只是对这行数据加一个delete flag标记(bitmap标记),并不会物理删除这行数据

 

Delta Store

是相对磁盘上的列存Main Store来说的,用于缓存Insert。

Delta Store由Delta rowgroup实现,所有Delta rowgroup都统称为Delta Store,有些文献也叫tail index(下文中Delta Store 和 Delta rowgroup是同一个意思)

所有的rowgroup也统称为Main Store(下文中Main Store 和 rowgroup是同一个意思)

Delta Store在结构上是聚集 B树索引,提供热数据的原地更新删除,为Main Store做缓冲。

 

RowID

由列存引擎生成,用来在列存索引中唯一标记一行数据。

列存rowid在数据行插入到rowgroup时候生成,这个rowid一直到数据行被删除都不会改变。

当行存和列存组合时,需要在行存添加一个字段来存储这个列存rowid,这样来使列存和行存通信。

 

行存中存储全量数据,列存分为Delta Store和Main Store,其中Main Store以列存的形式存储绝大部分数据,以Row Group为单位划分,每个Row Group对应行存中一定数量的记录。

假设用户建了一个行存索引和列存索引组合的表,事务插入数据时,会同时插入行存和Delta Store,Delta Store达到100W行阈值后冻结,会将其中较冷的数据迁移到Main Store,

冷热通过统计信息来判断。迁移过程中也会由新的Delta Store来缓存Insert。

迁移分为两个阶段:

  • 第一阶段:在一个事务中完成,将Delta Store冷记录迁移到Main Store,在Main Store中把迁移过来的冷记录标记delete flag删除并分配RowID。事务提交后迁移的部分在列存索引中不可见,但在Delta Store中依然可见,数据是一致的,这时Delta Store中冷记录并没删除。
  • 第二阶段:在一些小事务中完成,每个事务将第一阶段迁移的冷记录从Delta Store中删除,一个事务删一条记录,将对应的RowID更新到行存,并在Main Store中删除这条记录通过delete flag标记,事务提交后这条记录在列存索引中可见,但在Delta Store中不可见,数据也是一致的。

SQL Server从两个方面来减少数据迁移对行存性能的影响

  • 第一方面:第二阶段更新行存中RowID时不记日志,数据库故障恢复时通过扫描列存重建行存RowID,减少日志开销。
  • 第二方面:第二阶段每个事务只处理一条记录,减少与前台事务的写-写冲突(将对应的RowID更新到行存,如果有别的前台事务也要update行存的这条记录,会造成写-写冲突)。

 

 

事务删除数据时,如果记录在Delta Store中,则直接在行存和Delta Store中删除,如果记录在Main Store中,则需要根据行存中存储的RowID在Main Store中通过全表扫描把对应记录通过delete flag标记删除。

为了优化全表扫描删除的性能,SQL Server引入了Delete Buffer,将多个删除缓存,然后在一次全表扫描中批量删除

 

图4-3

图4-4

 

Main Store中标记删除的记录太多也会影响scan的性能,也会带来额外的内存开销,因此需要进行重整。

列存索引的重整由Row Group中标记删除的比例触发(90%),由后台任务将触发重整的Row Group中的有效记录重新插入Delta Store中,而重整的Row Group则被tuple-mover后台线程回收。

 

 

事务更新数据时,通过先删除 + 后插入实现,上文已经说了删除 和插入的实现方式,这里不再叙述。

 

事务查询数据时,列存引擎需要扫描Main Store,并根据delete flag剔除已删除数据,当第一次建列存索引时,列存引擎还需要通过Delta Store从行存表中获取未迁移到Main Store的数据,

然后利用bulk load,把未迁移到Main Store的行存数据不经过Delta Store直接迁移到Main Store。

 

图4-5

 

 

 

SQL Server列存总结

在概括SQL Server列存设计的优缺点之前,首先要看下数仓场景下更新的特点,这会影响到整个存储设计。

数仓场景下更新的特点,更新中绝大部分的是Insert,只包含极少数的Update和Delete。

并且列存中原地Update的成本很高,所以Update的实现一般是一次Delete加上一次Insert。因此支持更新实际上只需要考虑Insert的性能,Delete的性能并不是很重要。

现在大部分的列存引擎普遍都会选择Delta-Main架构,因为本身按列存储就不利于更新,因此需要使用Delta缓存架构来解决更新的问题。

 

SQL Server列存的优缺点

优点:

  • 通过引入delta store、delete flag、rowid,让列存索引以append-only的方式更新,保证跨行存和列存索引上事务的ACID。

缺点:

  • 插入数据到列存、Row Group重整、更新列存数据带来一定开销,这个开销就是都需要更新行存中的RowID,因此都会和行存的OLTP事务产生竞争,影响系统整体性能,这个是SQL Server行存和列存紧耦合导致的。

 

根据数仓场景的特点,SQL Server列存的开销其实可以接受,然后使用类Delta-Main架构也是比较主流的做法,但是到了HTAP的场景,整个数据库需要支撑高并发的查询和更新,列存的开销就会被放大。

在这方面,SQL Server也提供了很多优化方案,比如使用Mapping Index来减轻更新行存中的RowID的开销问题。

 

有同学会问SQL Server2014开始支持聚集列存索引,整个表只有一个列存索引作为primary index,就不会有更新行存RowID这个开销,但是数据库一般也需要唯一约束、外键约束等,要维护这些约束就需要行存B树索引来辅助。

所以,最后还是要行存和列存组合来使用。

 

 

 

HTAP发展

最后,从SQL Server的发展来看,一份表数据两种存储格式,两种存储引擎处理,查询时优化器自动选择存储引擎执行,对用户透明,这些特性让SQL Server走在了前列

当然,其他商业数据库和开源数据库也在向HTAP方向发展,例如oracle、GreenPlum、SAP HANA等等

还有,两大开源国产数据库代表PinGCAP、OceanBase,在成立之初就定位为新一代分布式的HTAP数据库,通过行存和列存松耦合来解决性能问题,新型的分布式架构确实比传统数据库更胜一筹。

 

 

 

本文版权归作者所有,未经作者同意不得转载。

原文地址:https://www.cnblogs.com/lyhabc/arcHive/2022/03/10/15988009.html

您可能感兴趣的文档:

--结束END--

本文标题: SQL Server内置的HTAP技术

本文链接: https://lsjlt.com/news/9170.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • SQL Server内置的HTAP技术
    SQL Server内置的HTAP技术 目录 背景 SQL Server在OLAP上的发展 SQL Server的初代HTAP SQL Server逐渐增强的HTAP SQL Server列存总结 HTAP发展       背景 20...
    99+
    2017-11-19
    SQL Server内置的HTAP技术
  • SQL Server双机热备技术
            SQL Server双机热备技术SQL Server双机热备,大体上可以通过发布订阅,日志传送,数据库镜像来实现。发布订阅发布与订阅是使用SQL Se...
    99+
    2024-04-02
  • SQL Server 技术讨论专用 QQ 群
    强烈推荐 SQL Server 技术讨论专用 QQ 群QQ 群号: 213291913注意事项:本QQ群仅限于交流 SQL Server 技术,请勿灌水,否则直接踢人。进群后请将群昵称改为实名,便于大家交流...
    99+
    2024-04-02
  • 解释SQL Server中的Data Virtualization技术及其用途
    Data Virtualization是一种数据集成技术,通过这种技术,用户可以使用SQL查询来访问和操作分布在不同数据源中的数据,而无需复制或移动数据。在SQL Server中,Data Virtualization技术可以通过使用Lin...
    99+
    2024-06-03
    sql server
  • 如何在SQL Server开发中融入极限编程技术
    如何在SQL Server开发中融入极限编程技术,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。极限潜在的中心前提就是两种思想比...
    99+
    2024-04-02
  • SQL Server 2016的数据库范围内的配置是怎样的
    本篇文章为大家展示了SQL Server 2016的数据库范围内的配置是怎样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。SQL Server 2016真的让人眼...
    99+
    2024-04-02
  • sql server中内存的示例分析
    这篇文章将为大家详细讲解有关sql server中内存的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一. 前言 对于sql server 这个产品来说...
    99+
    2024-04-02
  • PL/SQL中的动态SQL技术怎么应用
    在PL/SQL中,动态SQL技术可以通过使用EXECUTE IMMEDIATE语句来实现。动态SQL允许在运行时构建和执行SQL语句...
    99+
    2024-05-07
    PL/SQL
  • SQL Server误设置max server memory的处理方法
    昨天网上一网友说,由于他同事误将“max server memory”设置为10M后,SQL Server数据库登录不了,当时我简单测试了一下,今天有空就顺手将整个过程整理一下,记录在此。 在SSMS的UI...
    99+
    2024-04-02
  • 碎片拼接技术恢复XenServer服务器SQL Server数据库数据
    目录1、数据恢复方案一2、数据恢复方案二​环境:​ Dell PowerEdge服务器;XenServer虚拟化平台;4块希捷2T STAT硬盘用RAID卡组成的RAID10;Xen...
    99+
    2024-04-02
  • SQL Server内幕之数据行的结构
    表的数据行具有图6-5 所示的一般结构 (只要数据以未压缩的形式存储)。此格式称为 FixedVar 格式, 因为所有固定长度列的数据首先存储, 后跟所有可变长度列的数据。表6-7 显示了存储在每个 Fix...
    99+
    2024-04-02
  • PL/SQL的调试技术是什么
    PL/SQL的调试技术主要有以下几种: 使用DBMS_OUTPUT包:通过在代码中插入DBMS_OUTPUT.PUT_LINE语...
    99+
    2024-05-08
    PL/SQL
  • 15分钟15个SQL Server复制的技巧
    15分钟15个SQL Server复制的技巧 翻译自:15 SQL Server replication tips in 15 minutes 这个技巧和窍门的列表将帮助你增强复制技术。...
    99+
    2024-04-02
  • sql server的建库、建表、建约束技巧
    这篇文章主要介绍“sql server的建库、建表、建约束技巧”,在日常操作中,相信很多人在sql server的建库、建表、建约束技巧问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大...
    99+
    2024-04-02
  • SQL Server如何查看表的数据内容
    SQL Server数据库管理工具查询表数据需要输入sql语句。 打开SQL Server 2008; 在左侧的对象资源器选中需要查询的mssql数据库,点击菜单栏”新建查询”;    3、在新打开的窗口输入查询语句,点击执行。  来源...
    99+
    2023-09-03
    数据库 sql mysql
  • SQL server数据库的权限设置
    一、登录权限:SQL server的身份验证模式有以下两种: 1、 Windows身份验证模式: 当使用Windows身份验证时,SQL server会使用操作系统中的Windows用户和密码。也就是说,...
    99+
    2024-04-02
  • SQL Server中的事务怎么设置
    这篇文章主要介绍了SQL Server中的事务怎么设置的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇SQL Server中的事务怎么设置文章都会有所收获,下面我们一起来看看吧。事务全部是关于...
    99+
    2023-06-30
  • 优化SQL Server 索引的小技巧有哪些
    优化SQL Server 索引的小技巧有哪些,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。在本文中,我将说明如何用SQL Se...
    99+
    2024-04-02
  • 优化SQL Server索引的技巧是什么样的
    本篇文章给大家分享的是有关优化SQL Server索引的技巧是什么样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。影响到数据库性能的最大因素就是索引。由于该问题的复杂性,我只...
    99+
    2023-06-05
  • sql server中的内存基础知识有哪些
    今天就跟大家聊聊有关sql server中的内存基础知识有哪些,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。一. 前言对于sql server 这个...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作