云卷云舒：论超级数据库

笔者大胆提出一种“超级数据库”的概念设想。算力网络时代已经来临，超大算力芯片和网络已然布局，越来越多的“智算中心”不断投产，我们需要更加加速构建上层算网应用生态，除了关注传统的“物理机、虚拟机”算力，需要更多去关注能够产生更加广阔价值的paas算网应用，比如“超级数据库、算网数据库但是在如今，时不我待，大胆创新突破，正当数字经济时代的“弄潮儿”，我们需要基于成熟的技术和算网生态体系，打造“超级数据

bishenghua

1320人浏览 · 2024-02-09 11:31:04

bishenghua · 2024-02-09 11:31:04 发布

笔者大胆提出一种“超级数据库（NoDatabase）”的概念设想。

一、超级能力

就像当初提出“超级计算机”一样，我们是否同样可以提出“超级数据库”的概念呢？当然不是不可以。

二、超级计算机

我们回忆一下“超级计算机”的发展之路，大致经过了如下几个环节：

晶体管计算机：实现体积缩小
半导体集成电路：集成在半导体晶片上的晶体管数量将每两年翻一倍的速度增长，这就是著名的“摩尔定律”，至今依然有效。
芯片：体积进一步缩小，比如CPU和GPU，上百亿的晶体管的容纳。
超级计算机：复杂高难计算，将无数的芯片集成起来，就是超级计算机了。支持至少1-亿次计算/S
银行二号：并行计算突破，10亿次
天河一号：GPU和CPU形成异构融合体系，千万亿次，6144哥CPU+5120GPU，在2010年全球首座。
神威太湖之光：算力已达到10亿亿次。

三、算力概念

智算=CPU+GPU+xAI

算力网络：多个云计算，通过网络（光纤、5G）组合起来，通用算力+超级算力+智算+量子计算。通过算网大脑灵活智能调度，赋能数据经济，实现数字经济时代的“南水北调、西电东送”等超级工程，如“东数西存、东数西算”。

四、算力网络背后的技术坐标

算力：计算底座（主机）、计算引擎（数据库），各类芯片加持下的新型计算产品XPU；
网络：5G、光纤
存力：各类芯片加持
算网大脑：调度、运营、服务

五、超级数据库

再次回顾“超级计算机”，数据库的演进惊人的相似。

稳定安全大容量：IBM大型机+DB2，成本高，银行和民航才用得起；
大型机替代方案：小型机+oracle软件，HP横空出世，成本大幅降低，在电信、金融行业有了市场，DB2被打翻；
走向细分：OLTP（oracle依然傲娇）、OLAP（开源突破，PG崭露头角，oracle在AP市场被蚕食）
算力细分、智能化：OLTP（oracle中间退伍，分布式理念让MySQL等开源TP数据库大兴）、OLAP市场更加兴旺，大数据技术链“体系化”出现，oracle彻底没了市场。这一时代，成本大降，但是数据库的维护、数据管控复杂度大大提升，甚至需要组件数据库团队。

和“超级计算机”类似，都是从“小算力”-->“大规模集成算力”-->“连接型（网络型）算力+智能编排调度”演进，那么数据库作为一种常见的“算力”也要做出改变，但经常被很多“算力”服务商所忽略，其实：

算力的范围应该是：计算机+OS+数据库。网络的范围是：骨干/传输+接入+云内/云间。

那么算力网络时代的“超级工程”，具备“算网数据库、智算数据库、量算数据库”整合能力。“多态”、“连接”、“智能”是标准三件套，算网时代数字生态的构建是“超级数据库”的需求爆点

能力图谱：
- 为了支撑客户全国性调度的需求，光靠数据库本身不行，数据库的周边生态工具需要发展起来，比如“高效/安全传输”、“数据治理套件”、“数据冷热调度器”、“智能数据网关”。
- 数据碎片化分布、大体量的传输，对于安全提出了较高的要求，这里面应该建设专门的“数据安全高效传输专用通道”，甚至“专有协议”，一切为了安全和高效。
- 数据库的技术重点：也将随着数据库所在位置（端、近、远）有所侧重，端侧侧重实时计算、近侧侧重有限事务协同+端侧管控+模型应用、远侧侧重全局事务管控+模型管理。这里面，近侧和远侧的场景就十分适合放在“智算中心”进行管理。
- 算云网边端，五位一体，那么数据库是否依然有五种对应的形态呢？没有5种起码也有三种，适配端侧（内嵌）、近侧（边缘）、远侧（集中）。
- 云原生是主要“技术根路线”，支持百万QPS是标配或起配，可以关注He3DB，目前开放公测，有那么点意思。
- 再有一个就是“超融合”：打造超融合的架构，实现软硬一体化集成交付，保障数据合规安全、降低通信开销。
调度中枢：
- 这里指的是“超级数据库”的调度中枢，它与“算网大脑”可以说是一个上下位的关系。
  - 算网大脑负责全局资源管控、算力调度，而调度中枢专门指的是调度“超级数据库”体系内部数据的“数据调度中枢”，算网大脑侧重于全局资源的均衡，调度中枢则更多的关注数据的冷热分层、查询效率、数据一致性。
  - 但是二者相似的事是，都需要针对全局资源统管可见，这一点上，调度中枢需要统一遵循“算网大脑”的“上位编排”概念定位。
  - 之所以叫“超级数据库”，是指的“超大规模、超复杂架构”的数据都存在一个数据库体系内。
生态演进：
- 那么应用场景在哪里？派生新的通用行业-“数据行业”。目前可见如此大的“超级数据库”，应用的场景还是“分布式领域”，有两个场景：
  - 全国性大客户，客户业务或数据遍及全国，需要针对数据层面的管理和调度需求，如大中型央国企、大型医药/教育/工业/电商平台。
  - 从云服务上本身来看，实现全网数据库的统一纳管，实现资源总量的集中化运营，可以大幅提高资源利用效率，利用空闲区域数据库分担繁忙区域的“非热”数据，成本实现最佳。
  - 从衍生价值来看，在“超级数据库”中，如此多的数据实现了“统一管理”，除了满足全网的随时访问、安全保管、数据存储之外，还应该充分挖掘衍生价值，比如“数据超市”、“数据快递”、“超级备份中心”、“数据试验田”、“大模型中心”、“数据分析大表”等，更充分的赋能“算力时代”，打造更多的算网应用。
  - 从需求孵化角度，我们需要持续提升数据库价值挖掘，打造新型通用行业“数据行业”，覆盖全局。

六、超级数据库、算网数据库、智算数据库

算力网络时代已经来临，超大算力芯片和网络已然布局，越来越多的“智算中心”不断投产，我们需要更加加速构建上层算网应用生态，除了关注传统的“物理机、虚拟机”算力，需要更多去关注能够产生更加广阔价值的paas算网应用，比如“超级数据库、算网数据库、智算数据库”，其实在计算机发展历程上看，并不是一个东西，而是一个演进的过程。

可以认为“超级数据库”是下一代数据库，届时将彻底颠覆了数据库的形态，具备以下几个基本特征：

全网一个数据库，对外感觉不到各类数据库异构性、地理位置的区别，基于这一点，可以把超级数据库其名为NoDatabase；
用户的接入方式发生变革，如声音、文本输入；
应该在通用场景、细分场景有所区分，尤其将赋能细分行业场景，行业大模型将在此发挥作用；
诞生新型的定价、商业模式，基于内存+核心数的概念一去不复返，新型的计费模式、定价模式必将出现，比如按时间、按照数据量、按检索量、按冷热数据区分、按照数据流转成本、或其他新型的数据库算力评价标准。

但是在如今，时不我待，大胆创新突破，正当数字经济时代的“弄潮儿”，我们需要基于成熟的技术和算网生态体系，打造“超级数据库、算网数据库、智算数据库”（我这里统称“超级数据库”），在未来超级数据库就是下一代数据库。

参考文章：

云卷云舒：算力网络+云原生（下）：云数据库发展的新篇章-CSDN博客

 云卷云舒：算力网络+云原生（中）：探索构建算力网络数据库_云卷云舒 csdn-CSDN博客

云卷云舒：算力网络+云原生（上）：打造云网边端协同架构_算力网络和云原生-CSDN博客