深入理解Python中的GIL(全局解释器锁)

一、GIL是什么

GIL:又称全局解释器锁。作用就是限制多线程同时执行,保证同一时间内只有一个线程在执行。线程非独立的,所以同一进程里线程是数据共享,当各个线程访问数据资源时会出现“竞争”状态,即数据可能会同时被多个线程占用,造成数据混乱,这就是线程的不安全。所以引进了互斥锁,确保某段关键代码、共享数据只能由一个线程从头到尾完整地执行。
GIL并不是Python的特性,Python完全可以不依赖于GIL。

那么在这里就反映出一个问题:在我们的Python语言中多线程其实是假的多线程,它只会在一个CPU上运行。这又是为什么呢?因为在Python上开启多个线程,由于GIL的存在,每个单独线程都会在竞争到GIL后才运行,这样就干预OS内部的进程(线程)调度,结果在多核CPU上:Python的多线程实际是串行执行的,并不会同一时间多个线程分布在多个CPU上运行。

二、为什么会有GIL

Python为了利用多核CPU,开始支持多线程。而解决多线程之间数据完整性和状态同步的最简单方法自然就是加锁,于是有了GIL这把超级大锁。因为有了GIL,所以我们的Python可以实现多进程,但是这是一个假的多进程,虽然它会利用多个CPU共同协作,但实则是利用一个CPU的资源。

但是这种GIL导致我们的多进程并不是真正的多进程,所以它的效率很低。但当大家试图去拆分和去除GIL的时候,发现大量库代码开发者已经重度依赖GIL而非常难以去除了。如果推到重来,多线程的问题依然还是要面对,但是至少会比目前GIL这种方式会更优雅。所以简单的说:GIL的存在更多的是历史原因。

三、GIL的副作用

Python的多线程在多核CPU上,只对于IO密集型计算产生正面效果;而当有至少有一个CPU密集型线程存在,那么多线程效率会由于GIL而大幅下降。正因为有了GIL的存在,我们Python的多线程效率才会比较低,毕竟它不是真正的多线程。那么此时,我们就可以考虑使用多进程去实现,因为多进程是可以利用多核的CPU资源的。但是又有一个问题?多进程需要的资源较大,明显不是最好的解决办法,那么如何高效的解决这一问题呢?

我们都知道Python它其实是一个“胶水”语言,它除了可以调用自己的模块。类库之外,还可以调用C、C++等语言的很多模块、类库。此时,我们只需加载动态库,把多进程这块,换成利用C语言去实现就可以了

四、GIL的总结

  1. 因为GIL的存在,只有IO Bound场景下的多线程会得到较好的性能。
  2. 如果对并行计算性能较高的程序可以考虑把核心部分也成C模块,或者索性用其他语言实现。
  3. GIL在较长一段时间内将会继续存在,但是会不断对其进行改进。

五、GIL面试题

描述Python GIL的概念, 以及它对Python多线程的影响?编写一个多线程抓取网页的程序,并阐明多线程抓取程序是否可比单线程性能有提升,并解释原因。

参考答案:

  1. Python语言和GIL没有任何关系。仅仅是由于历史原因在Cpython虚拟机(解释器),难以移除GIL。
  2. GIL:全局解释器锁。每个线程在执行的过程都需要先获取GIL,保证同一时刻只有一个线程可以执行代码。
  3. 线程释放GIL锁的情况: 在IO操作等可能会引起阻塞的system call之前,可以暂时释放GIL,但在执行完毕后,必须重新获取GIL Python 3.x使用计时器(执行时间达到阈值后,当前线程释放GIL)或Python 2.x,tickets计数达到100。
  4. Python使用多进程是可以利用多核的CPU资源的。
  5. 多线程爬取比单线程性能有提升,因为遇到IO阻塞会自动释放GIL锁。
Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐