2024年回顾:云数据库主要亮点

最热门的趋势:矢量数据库和人工智能

AI,尤其是LLM的能力似乎没有天花板,基于这些技术的应用在各行各业蓬勃发展。数据库与AI的一个重要交集就是向量存储和搜索。过去一年,几乎每个主流数据库都引入或增强了相关功能。Forrester也率先发布了独立的《Vector Database Wave》,评估各种数据库的向量处理能力。

Forrester 的矢量数据库浪潮

今年第三季度,Forrester 发布了《矢量数据库浪潮》,其中包括 Zilliz、DataStax、微软、亚马逊、甲骨文和 Pinecone 等公司。

Image

现在,几乎所有数据库或云厂商都在投入“向量”技术。这些由人工智能驱动的创新正在迅速发展,向量存储和应用领域的竞争还远未结束。

数据库和云提供商引入的矢量功能

2024 年,数据库提供商竞相推出对矢量相关功能的支持。值得注意的例子包括:

  • pg_vector 发布了 0.8 版本,被众多项目广泛采用。
  • Azure 推出了其矢量数据库扩展 DiskANN,并集成到其多个数据库产品中。
  • MariaDB从11.6版本开始全面支持矢量特性。
  • OceanBase 4.3.3增加了对矢量数据存储和索引的支持。
  • MySQL 9.0引入了向量存储支持。
  • TiDB 推出向量搜索(Beta 版),将向量功能无缝集成到其生态系统中。
  • 此外,现在几乎所有支持 PostgreSQL 的云提供商都包含 pg_vector 插件。
  • 其他人工智能数据库集成

    除了矢量功能之外,其他 AI 数据库集成(例如 Text2SQL 和数据库优化)也越来越受欢迎。示例包括:

  • AWS Redshift 通过 Amazon Q 正式支持自然语言生成的 SQL 查询,可在 Redshift 查询编辑器中使用。
  • Copilot for Azure 扩展了对 Azure SQL 和 Azure Database for MySQL 的支持。
  • 图形数据库

    图形数据库已成为大型语言模型 (LLM) 生态系统的重要组成部分,在过去一年中经历了快速增长:

  • Neo4j 宣布其 ARR(年度经常性收入)超过 2 亿美元,在过去三年中翻了一番。其在图技术市场的领导地位在提高生成式 AI 结果的准确性、透明度和可解释性方面发挥了关键作用。
  • 今年,ISO发布了新的ISO/IEC GQL(Graph Query Language)标准,也就是图数据库的“SQL”,弥补了现有处理图数据标准的空白,NebulaGraph成为第一个支持该标准的分布式图数据库。
  • 开源和商业发展

    今年年初,广泛使用的缓存数据库 Redis 对其开源许可证进行了变更,从 7.4 版本开始,Redis 采用了 RSALv2+SSPLv1 许可证,不再使用 BSD 许可证。

    不久之后,Valkey 项目在 Linux 基金会下启动,并得到了亚马逊、谷歌和甲骨文等公司的支持。同年晚些时候,AWS 在其云平台上正式支持 Valkey。

    同时,CockroachDB 对其开源许可证施加了严格的限制。对于小型企业(年收入低于 1000 万美元),该软件仍然免费,但超过此收入门槛的企业现在必须为其使用付费。

    PostgreSQL 稳步上升

    与前几年一样,PostgreSQL 继续缓慢而稳定的上升,而 MySQL 似乎已经进入稳定期。

    在 DB-Engines 排行榜上,MySQL 依然保持领先,不过 PostgreSQL 势头强劲,pg_vector 等创新技术得到广泛应用,而 MySQL 9.0 版本对向量的支持还比较有限。

    Image

    在 JetBrains 的《2024 年开发者生态系统状况报告》中,也出现了类似的趋势:

  • MySQL 的采用率从 2019 年的 60% 下降到 2024 年的 52%。
  • PostgreSQL 的采用率从 2019 年的 30% 增长到 2024 年的 45%。
  • Image

    数据库领域的资金亮点

    2024 年,数据库领域发生了许多值得关注的融资事件:

  • PostgreSQL 托管初创公司 Tembo 在 A 轮融资中筹集了 1400 万美元,提供开源产品和用于托管 PostgreSQL 服务的 Tembo Cloud。
  • OpenAI 以约 5 亿至 10 亿美元的价格收购了实时分析数据库开发商 Rockset,以增强大型模型的实时数据搜索和分析功能。
  • ClickHouse 收购了 PostgreSQL 数据同步初创公司 PeerDB,后者在 2023 年的种子轮融资中筹集了 360 万美元。
  • 开源时间序列数据库 GreptimeDB 获得数百万美元的资金,强调经济高效的实时数据处理。
  • K1 收购了 MariaDB,巩固了其作为领先小型企业软件投资者的地位。
  • Supabase 在 C 轮融资中筹集了 8000 万美元,主要围绕 PostgreSQL,提供包括矢量数据库在内的一系列开发工具。
  • ApertureDB 筹集了 800 万美元,用于推进 AI 的多模式数据流服务。
  • Gartner 数据库魔力象限

    Gartner 最近发布了 2024 年数据库魔力象限。领导者仍然是 Google、AWS、Azure 和 Oracle,而 MongoDB、DataBricks 和 Snowflake 正在向右上象限迈进。

    Image

    来自云提供商的重要公告

  • 在 AWS re:Invent 大会上,AWS 推出了 Aurora DSQL,具有跨区域、强一致性、多区域读写功能,可用性达 99.999%(多区域部署),并且兼容 PostgreSQL。DynamoDB 也引入了类似的跨区域一致性功能。
  • 在 Oracle CloudWorld 上,拉里·埃里森强调了多云战略,推出了 Oracle@Google、Oracle@Azure 和 Oracle@AWS 解决方案。
  • GCP 专注于增强 AlloyDB 及其基础产品,例如推出 Cloud SQL for SQL Server 的 Enterprise Plus 和 Enterprise 版本。
  • Microsoft Azure 优先考虑 Cosmos DB 和 SQL 数据库,为其矢量数据库引入了 DiskANN 矢量索引。
  • 我们是 Leapcell,一个更好的平台来部署您的项目,包括那些带有云数据库的项目。

    Leapcell

    Leapcell 是用于 Web 托管、异步任务和 Redis 的下一代无服务器平台:

  • 多语言支持
  • 使用 JavaScript、Python、Go 或 Rust 进行开发。
  • 免费部署无限项目
  • 仅按使用量付费 — 无请求,无费用。
  • 无与伦比的成本效率
  • 按需付费,无闲置费用。
  • 例如:25 美元支持 694 万个请求,平均响应时间为 60 毫秒。
  • 简化的开发人员体验
  • 直观的用户界面,轻松设置。
  • 完全自动化的 CI/CD 管道和 GitOps 集成。
  • 实时指标和日志记录可提供可操作的见解。
  • 轻松实现可扩展性和高性能
  • 自动扩展以轻松处理高并发。
  • 零运营开销——只需专注于建设。
  • 在文档中探索更多!