谁能实现商业化成功落地，谁就可能在“百模大战”中获胜

2023年，国产数据库的格局正在发生变化。

据2022年9月国资委79号文件，截止到2027年“2+8+N”党政与八大行业完成100%国产替代，替换范围涵盖芯片、基础软件、操作系统、中间件等领域。于是，随着国内政策和国际环境的双重利好，中国的国产数据库厂商正在奋起直追，尽全力完成对固有“IOE”的替换。

尽管目前起步较早的国产数据库厂商在各项关键性能指标上已经可以与国际大厂同台竞技。但是，对于国产数据库而言，机会和挑战依旧在加速涌来。

从数据库厂商的角度去看，目前国产数据库的挑战聚集在研发、专利和代码自主化程度上。伴随着数据量的增长和分布式计算的普及，分布式数据库变得更加重要。与此同时，在人工智能技术的发展下，国产数据库也将迈入全面支持信息化基础设施建设的发展新阶段。

据Gartner预测，2022年，全世界75%的数据库会以云的方式运行。未来，数据库领域的核心发展方向是云原生+分布式，以及由此带来的核心技术布局主要指向：安全稳定、自动化与智能化、数据库大数据一体化、数据仓库与数据湖、多模数据库以及软硬件结合。

当下是国产数据库突围的关键时刻，以此为契机，我们邀请到了达梦数据副总经理冯源、镜舟科技CTO张友东、PingCAP副总裁刘松，和他们一起一同开启了本次国产数据库主题直播《分布式、云原生、HTAP，数据库进入技术创新繁荣期》。

集中式数据库VS分布式数据库

随着社会发展与产业升级对数据规模提出了更高要求，分布式数据库的优势逐步凸显。

此前国家工业信息安全发展研究中心发布的《分布式数据库发展趋势白皮书》指出，传统集中式数据库面对数据量高速增长时难以维持性能，数据分析能力缺失，扩展容量成本较高。

而分布式数据库则具备透明性、数据冗余性、易于扩展性等特点，随着数据量的暴增，分布式数据库在各行业数据量都在不断膨胀的今天，更能够突破传统数据库的瓶颈。

但是从行业应用的角度出发，对于集中式数据库与分布式数据库的选择，企业依旧存有疑虑。对此达梦数据副总经理冯源表示，实际情况下并没有那么多的限制，企业要根据具体的业务场景进行区分：

集中式和分布式是不一样的，是有两种不同架构的产品，对于用户而言可以不用太去关心分布式还是集中式的问题，或者说从集中式向分布式过渡应该是自然而然发生的。用户可以以集中式的模式部署产品，然后随着业务的增加，负载的提升，再从无分片的数据存储的方式过渡到这种带有分片的模式。

从用户体验的角度出发，如果是从集中式过渡到分布式架构，那可能就考验的是厂商能否提供统一的体验。目前的实际情况看，显然厂商的产品还没有做到这种水平，这也是下一步国产数据厂商希望能够达到的一个目标。

镜舟科技CTO张友东对此则提到，可能业界对集中式数据库，分布式数据库的理解是两头技术路线，然后适应的场景可能也有一些差异，但随着部署的不断演进和云的普及，技术的差异会越来越小，未来是趋于统一。

PingCAP副总裁刘松表示，数据库是由用户应用场景驱动其不断发展的。比如，为了满足大数据、物联网等带来的海量实时数据处理需求，数据库从集中式架构发展到分布式架构，再演进到云原生架构。目前，AIGC的快速发展，让多模数据的处理需求越来越多，这也将进一步驱动数据库的技术和应用创新。

新业态重塑数据库市场

过去20年，数据库行业随信息技术发展而快速演变，随着技术的升级和更迭，数据库所面临的市场也在发生着变化。就像冯源表示的那样，新业态会塑造数据库的市场。所以问题首先回到了：新业态是什么？

冯源提到，前几年大家认为新业态是大数据，再过几年可能大家认为新业态是电商。在互联网经济最繁盛的那几年，数据库面临着业务需求最集中的爆发，所以那几年数据库特别强调能不能极致的扩展，相对于传统的数据库产品来讲，这类需求会被急剧放大。“可以说很多数据库领域的新技术、新需求或者新趋势，其实是被业态所引导、所塑造的。”因此，商业化模式更好的市场是目前达梦数据比较关注的。

刘松则表示，整个技术的发展都是为需求去服务的。分布式数据库受于技术限制会导致各种体验上的不畅，可能是厂商需要重点去关注的一些问题：在技术领先的同时，不要去牺牲用户体验。

PingCAP成立于2015年，一开始就是开源的分布式数据库。在确定技术路线时，PingCAP主要考虑了以下三个问题：

首先是新一代的架构先进性和经典客户需求之间的一个平衡，既要保证核心安全性，又要具备严肃性、扩展性、创新性。其次，要对全球客户和中国客户进行平衡，必然要打造一个世界级的数据库。而且，要打造一个面向未来的数据库，比如在云上也能用，在私有部署里面也能用。

所以，长远来看，AI跟数据库的结合，不仅能够让数据库本身变得更智能，也使得甚至未来数据库基于AI引擎和数据技术之间的融合实现智能化。

技术的迁移：湖仓一体与向量数据库

湖仓一体作为新一代数据智能技术正在为企业的数据平台建设提供了最佳可能。

根据IDC数据研究预测：到2026 年，非结构化数据预计将占IDC全球数据圈中90%以上的数据。也就是说，在过去的数据量以及数据状态下，企业还能靠烟囱式架构或者技术堆栈式服务来支撑业务发展，但随着大量的视频、图片、文件等非结构化数据走向实际业务场景，其数据规模和复杂度就超越了传统的结构化数据管理范围。

为了快速响应业务需求，构建实时数据处理能力，企业必须进行平台架构的提升，解决好海量数据的高并发和实时处理要求。

但对于湖仓一体的火热，张友东认为随着数据规模的增长，数据库技术必然会发生革新。在湖仓一体的发展过程中，可能很多的企业的技术人员会关注到建一个数据湖，还是建一个数据仓库，其实这两个方向是各有优劣的，但是从用户的视角，它是一个既要又要还要的想法。

所以说，一个新技术要去在行业中发挥价值，肯定不是说完全把旧技术一下子推倒，立马应用起新技术，它一定是有一个不断演进的一个过程。无论是向量数据库还是湖仓一体，这些新概念是一样的，因为数据库从接口上属于一个高度标准化的产品。

这些新兴的数据技术，最开始是从应用里面催生的，随着它不断推广开来，你会发现只要是跟数据有关的东西其实或多或少都需要去把它管理起来、运维起来，这也是说为什么原来一些比较独立的技术后面慢慢能够整合到数据库内部。

此外，当下大规模生成式AI模型的崛起进一步推动了对向量数据库的需求。冯源认为，面对一个新的趋势或者新的需求，企业要明确站在厂商的角度来看，这个需求趋势对数据库会提出什么样的要求，或者说是挑战。

刘松对上述观点表示认同，在他看来AI时代来了，做数据库的人还是需要做一个符合 AI 时代需求的数据库，这是更一致的观点。

AI带来了编程效率的提升和数据聚合的爆发，在这种情况下，不止是向量数据库、包括云数据库等都要迎接更多的挑战。向量数据库刚好处在ChatGPT快速爆发的时期，它是一个通向大模型的桥梁，但最终这些东西都要和经典数据库进行一个融合。

此外，刘松认为，数据库未来几年有两个方面的变革，一方面是自身借助AI使自己变得更好用、更易用。另外一个就是数据库怎么把自己的架构跃迁，去迎接AI带来的巨大的代码爆发以及数据爆发的新挑战。