博客

从湖仓到智算如何构建 AI-Native 的云原生湖仓架构 | IFclub 分享回顾

avatarwubx3月 26, 2026
从湖仓到智算如何构建 AI-Native 的云原生湖仓架构 | IFclub 分享回顾

该文章来自 吴炳锡 在 IFClub 福州站分享回顾。

过去这些年,企业建设数据平台,基本都围绕几个关键词展开:存储、计算、分析、成本。所以我们看到了从单机数据库到 Hadoop,再到湖仓一体的持续演进。每一次升级,本质上都在解决同一个问题:如何更高效地管理越来越多的数据。但 AI 的出现,让这件事开始变得不一样。 今天企业真正关心的,已经不只是“数据能不能存、能不能查”,而是数据能不能更高效地被 AI 理解、调用,并最终转化为业务结果。这也是为什么,很多团队明明已经完成了湖仓建设,在当前 AI 时代却依然会觉得现有的数据底座“不够用了”。

Image

湖仓解决了很多问题,但没解决 AI 的问题

Image

湖仓一体解决了存储和分析的问题,却没有天然解决 AI 落地时最麻烦的那部分工作。因为在真实业务里,最有价值的数据并不总是整齐地躺在表里。PDF、日志、文档、图片、账单、聊天记录、录音,这些非结构化数据才是企业知识、流程和经验的主要载体。但在传统架构里,它们往往分散在对象存储、文件系统和业务应用中,很难和结构化数据一起被统一分析。

Image

于是很多 AI 项目一上来就会进入熟悉的流程:

  • 先抽取文件
  • 再做 OCR 或解析
  • 再做清洗
  • 再调用模型
  • 再做向量化
  • 再入向量库

最后再回头和数仓里的结构化数据做关联 流程当然能跑,但问题也很明显:

  • 链路太长
  • 数据搬运太重
  • 副本越来越多
  • 系统之间耦合越来越复杂

一旦业务场景增加,维护成本就会快速上升 所以很多企业并不是缺一个模型,而是缺一个真正适合 AI 工作方式的新型数据底座。

Image

这次分享里提出的一个关键判断是:

AI-Native 数仓,不是给传统数仓加一个大模型接口,而是从底层开始,让 AI 成为数据系统的一等能力。

如果进一步拆开看,它至少意味着三件事。

第一,数据系统要天然支持多模态。

未来的数据平台不能只围绕结构化表设计。JSON、文本、向量、文档,甚至文件本身,都应该进入同一套处理和分析体系。只有这样,AI 才能真正建立在企业完整的数据上下文之上。

第二,AI 要尽量靠近数据,而不是让数据反复搬家。

过去很多链路的问题,并不是模型能力不够,而是数据离模型太远。解析、抽取、向量化、分析,如果都要靠外部服务拼接,复杂度会非常高。更合理的方式,是把更多能力沉到数据系统附近,让链路变短,让执行更统一。

第三,Agent 不该绕开数仓,而应该直接调用数仓能力。

未来很多交互会从自然语言开始,但自然语言只是入口。真正决定结果质量的,是 Agent 背后有没有可靠的工具链。如果模型只靠自己猜,结果很难稳定;如果它能调用 Databend 这样的湖仓产品进行精确计算,整个系统的可靠性就会高很多。

Image

两个例子,AI4DB & DB4AI 在 Databend 中整合

AI4DB: HR 做简单筛选及候选人推荐。

每天面对海量的简历及人员,如何能高效的找到千里马呢?

Image

利用 Databend 一个 SQL 把非结构化的简历,半结构化及向量的资源,供后续的 AI 使用:

Image

在此基础上,后续流程就会清晰很多,形成资产后,可以让 AI 用自然语言从资产表中去利用全文搜索 + 向量检索,针对推荐的候选人,再加上 HR 的招聘要求,让 AI 打分推送。可以下面的视频:

该案例小结:

利用 AI 完成数据清洗和核心信息提炼,可以让原本混乱的非结构化数据变得更易读、也更易用。同样结合 Databend 本身的全文检索,json 能力,vector 能力,给 AI 提供一条高效的数据处理通路。两者结合给出一个更完全的解决方案。

DB4AI 利用 Databend 去分析阿里云的账单

Image

云平台会提供丰富的报表和账单,帮助你了解费用花在了哪里,但从来不会讲你花的这次钱有没有浪费。我们面对这些账单天生字段多、结构复杂,又难于分析。如果直接把原始数据丢给大模型,很容易出现幻觉,也容易受到上下文窗口限制。更好的方式,是让模型负责理解问题,让数仓负责做聚合、筛选和计算。模型和 Databend 这样的分析引擎协同起来,才能真正把“会回答”变成“答得准”。接下看视频给演示了账单加到 Databend 后 , AI 基于 mcp_databend 调用进行账单分析。

https://app.databend.cn/  注册后可以直接体验,熟练人员大概 10 分钟就能完成。如果你对想利用 Databend Cloud 分主析云账单,获得支持也可以微信加到:Databend  获得支持。

该案例小结:

  • 业务挑战:阿里云账单位明细极其复杂。大模型直接读取存在严重“幻觉”问题与上下文 Token 限制
  • 破局思路:大模型利用 MPC 访问 Databend 提供结构化数据,让 LLM 的意图推理与 Databend 的极速 OLAP 算力完美结合与协同,发挥出更大的威力。无须关注数据长度 & 无须关注分区 & 无须关注索引

从“湖仓”到“智算”,真正变化的是角色

很多人会把这件事理解成一次技术栈升级,但它更深层的变化,其实是数据平台角色的变化。过去,数据平台更像一个“冷库”和“加工厂”。现在,它开始变成业务的智能计算底座:

  • 不只是存数据,也要理解数据
  • 不只是支撑分析,也要支撑 Agent 调用
  • 不只是回答过去发生了什么,也要参与下一步行动 这就是“从湖仓到智算”真正想表达的东西。

Image

AI 时代的数据平台竞争,最终比的不会只是性能和成本,还会比谁更能把数据、模型和计算放进一个统一而高效的协作体系。对企业来说,真正重要的不是多接了一个模型接口,而是有没有能力让数据底座从“支撑分析”走向“支撑智能执行”。 这件事,值得所有正在重做数据平台的人重新思考一遍:未来的 AI-Native 云原生数据底座,究竟该如何建设?

关于 Databend

Databend 是一款 100% Rust 构建、面向对象存储设计的新一代开源云原生数据仓库,统一支持 BI 分析、AI 向量、全文检索及地理空间分析等多模态能力。

期待您的关注,一起打造新一代开源 AI + Data Cloud。

👨‍💻‍ Databend Cloud:https://databend.cn

📖 Databend 文档:https://docs.databend.cn

💻Wechat:Databend

✨GitHub:https://github.com/databendlabs/databend

使用 Databend Cloud 天然解决 AI 落地烦恼

开始使用 Databend Cloud——面向分析、搜索、AI 与 Python Sandbox 的 Agent Ready 数仓,即可开始,获得 200 元代金券。

分享本篇文章

订阅我们的新闻简报

及时了解功能发布、产品规划、支持服务和云服务的最新信息!