本文已收录到:CMU数据库系统学习笔记 专题
视频、课件
视频:https://www.bilibili.com/video/BV1Z3411x7aS?spm_id_from=333.880.my_history.page.click
为什么要关心并行执行?
前面的第一部分我们只研究了单线程情况下的执行问题,但是并行执行却是我们不得不考虑的问题:
提升性能:
- 提升吞吐量
- 降低延迟
增强的响应性和可用性。
潜在地降低总拥有成本(TCO)。什么是TCO:简单的来说就是衡量一台机器使用寿命、价格、处理总数据量、电费这些成本后得出来的参数。可以衡量机器的性价比。
并行与分布式
分布式数据库:数据库分布在多个资源中。分布式有很多节点,分布式的数据库节点之间非常远。访客只要连接上一个节点就可以访问多个节点,好像是在单个节点一样。单节点数据库和分布式数据库,查询的结果是一样的。
并行数据库:资源都是在一块的。多线程在同个机器高速的查询。线程之间通信是非常可靠的(通过内存是简单可靠的)。
处理模型、线程模型
多用户,执行计划如何处理的。我们以worker作为一个抽象的“在数据库中工作的人”。
关于进程与线程的区别是操作系统课程中研究过的,可以移步 –> 清华大学操作系统课程笔记:进程和线程
每个worker一个进程(process)
为每个worker分配一个进程procecss,进程之间共享一段内存空间用于进程通信。以下三种数据库采用进程模型,每个worker一个进程:
如果并发量太大,每个worker一个进程,这样进程会非常多。下一步我们考虑建立一个进程池用于分配。
进程池
以下数据库采取进程池:
每个worker一个线程(thread)
在此之前,不同的操作系统提供的线程API不同,甚至有的不提供线程API。使用线程就很麻烦。
在此之后的发展过程,操作系统逐渐统一了线程相关的API接口供应用程序使用。所以后来的数据库系统也逐渐采用线程模型来运行。
MySQL仅仅只有一个进程在运行。(上面还有一个,不知道为什么?)但至少不是多进程了。
优点:线程之前的调用由DBMS自行负责。同一个进程之下的所有线程都是共享内存的,通信很方便。
缺点:一个线程崩溃会导致整个进程崩溃。
很多数据库用来多线程,但并不是每个SQL语句之内都是并发的。是多个SQL语句之间并发执行的。单条语句并发运行我们后面讨论。
针对每个执行计划该如何调度?
针对每个执行计划,数据库系统需要知道在哪执行、什么时候执行、怎么执行。
- 一个执行计划需要切分成多少任务?
- 每个任务需要占用多少CPU资源?
- 哪些CPU资源执行哪些任务?
- 单个任务结果输出到哪里?子任务如何聚集?
尽量用自己的数据库来控制这些事情,不要用操作系统,他很傻。
两种并发执行
多SQL语句之间并发执行
多个不同用户执行查询SQL,他们之间并发执行。
如果并发查询之间是只读的,那么他们之间的冲突很小。如果并发查询是更新的话,这就是并发控制。——这是一大类问题,在事务中我们讨论。
单个执行查询SQL中如何并发执行
可以提升单个查询的性能。思想很像生产者消费者问题。 –> 去回顾下生产者消费者问题
成熟的数据库每个算子都有并发版本。并发算子的实现有两大思路,一个是把数据切分给不同的worker处理;另一个是将算子分配给每个worker处理,有点像流式处理。
举个例子:并发版本的hash join。
第一个worker执行完之后去第4个page:
最终由Exchange进行汇聚,并发的调用下面的worker。
exchange算子有三大类:汇聚、分发、重分配
执行时候如何做并发机制
举例: