分论坛:技术创新
专题:云原生技术实践
内容简介:
云原生架构与技术正在迅速被用于支持更多类型的工作负载,如AI机器学习,大数据,高性能计算等,帮助企业充分利用云的资源弹性、异构算力、标准化服务以及容器、微服务等云原生技术手段,为 AI/ML 提供工程效率高、成本低、可复制的端到端解决方案。本次将分享对云原生 AI 这个新领域定位的思考,帮助用户了解如何通过 以 Kubernetes 为底座的云原生 AI 架构实现 AI 算力成本和技术成本的优化,拓宽 AI 技术应用边界、加速AI工程化落地创新。
演讲提纲:
1、为什么以及什么是“云原生AI” 介绍云原生AI定义、技术分层和参考架构 2、云原生AI技术剖析 分层介绍云原生AI技术栈,核心场景和能力。针对重点能力,分享实现原理,讨论现有云原生技术的不足,以及社区发展方向。主要内容包括: (1)异构资源 (GPU\NPU\RDMA等)集群管理 (2)Kubernetes调度器增强 (3)AI任务生命周期管理 (4)AI数据管理与加速 (5)AI任务性能优化 3、云原生AI平台案例分享分享用户基于云原生AI技术构建AI平台的真实案例,得到的收益和不足。
听众收益:
3、获得如何基于云原生技术,支持AI/ML/Big data等多类工作负载的启发。