京东云发布数智算力矩阵,异构资源池化GPU利用率提升70%

尚怡达人 2023-09-28 2181人围观 能源金融科技金融机构煤炭

  9月26日,京东云城市大会西安站圆满落幕。基于多年来对研发大模型的能力积累和对行业需求的理解,京东云在会上重磅发布数智算力矩阵。从MaaS服务到到智算集群,再到硬件基础设施,京东云为千行百业不同需求的客户,打造一站式大模型服务,为孕育大模型提供“肥沃土壤”,筑牢产业发展的数字基底。

 

  为了应对大模型训练资源稀缺,以及缺乏专业开发人员等问题,京东云将京东大模型能力开放出来,将开发大模型的底层能力解耦,推出言犀AI开发计算平台,提供一站式模型训练推理能力。

  超算资源的成本、模型计算效率、资源弹性等都成为制约大模型训练的关键因素,京东云高性能计算集群、超低延迟网络、高性能分布式存储等,提供极致的数字基础设施能力,并基于混合多云操作系统,对异构资源进行灵活调度,更好地满足大模型的算力需求。

  在底层硬件层面,京东云提供硬件/网络算力资源、智能算力模块,以及算力中心和边缘节点等能力,为大模型训练提供坚实的保障。

  此外,京东云完善的安全体系,可有效保障客户云上云下整体资产应用和业务系统的安全稳定,为大模型服务保驾护航。

  AI开发计算平台 让大模型“触手可及”

  目前,言犀AI开发计算平台已正式上线,提供公有云版、私有化部署版、API接口等多种服务方式,为客户的大模型开发和行业应用,提供一站式的解决方案,让大模型的能力轻松触达每一位开发者。

  将大模型能力应用到产业领域,实现垂直行业的“智能涌现”,并非易事。高质量的行业知识作为稀缺要素,决定了大模型的“智商”。言犀AI开发计算平台具备丰富的行业知识库,京东在零售、物流、健康、金融等行业多年积累的知识都沉淀在平台上。

  同时,平台不仅提供京东自研的言犀大模型,也支持行业各类开源通用模型;此外,平台精选了京东技术团队多年来开发出的100多种训练和推理优化工具,可提供更加高效的大模型开发环境,让用户可以快速地把通用模型,转化成适合自身场景的专业模型,尤其是面对没有代码开发经验的应用开发者,平台低代码的开发方式,进一步降低门槛,让大模型真正变得“触手可及”。

  通过言犀AI开发计算平台,不到一周时间,即可完成从数据准备、模型训练、到模型部署的全流程;之前需要10余人的科学家团队工作,现在只需要1-2个算法人员;通过平台模型加速工具优化,节约90%的推理成本。

  高性能计算集群 打造大模型网络“高速公路”

  算力集群的灵活调度,是大模型训练的底层基础。全新的云舰异构资源池化解决方案,在原有支持混合多云CPU+GPU异构算力池化能力基础上,针对大模型场景,支持训练+微调+推理混合部署,进一步增加了针对AI应用所需的调度管理能力,提供一站式算力池化解决方案,算力利用率提升70%,从而全面推动大模型应用落地降本增效。

  大模型训练本身带来的高昂成本,让很多企业想用不敢用,兼具高性价比和高性能的计算集群,对降低大模型训练成本尤为重要。

  京东云高性能计算集群HPC,使用了高速RDMA网络互联的弹性服务器集群,提供高计算性能和并行加速效率的弹性计算服务。 在算力层面,京东云提供的超级计算集群、京刚裸金属、第五代云主机等多种高性能产品形态,可提供极致算力,最大支持十万级GPU节点规模;在网络层面,京东云自研RDMA拥塞算法,全局调控RDMA网络流量路径,不同GPU节点最大支持3.2 Tbps RDMA网络带宽,传输时延低至2 us左右。

  大模型需要大规模的算力,由此也带来海量的存储需求,云海作为京东云自主研发的高性能、高稳定、低成本分布式存储产品,历经10余年京东自身复杂场景的历练,能够满足大模型所需要的海量数据(603138)存储需求,并提供超大量数据传输所需的极致性能。同时,存算分离的技术架构,可为客户节省整体基础设施成本超30%,现已在高性能计算、AI训练等新兴场景以及音视频存储、数据报表等传统场景广泛应用。

京东云发布数智算力矩阵,异构资源池化GPU利用率提升70%

  智能算力模块 筑牢大模型坚实底座

  随着大模型等系列 AIGC 产品的应用落地,对于AI 服务器的需求快速提升,且AI 服务器中大量使用高功率 CPU、GPU芯片,带动单台AI 服务器功耗不断上升,因此提高单机柜功率密度,成为调和快速增长的算力需求,与有限的数据中心承载力之间的有效方案。

  基于多年算力基础设施部署交付的最佳实践,京东云在业内率先推出“阿尔法”智能算力模块高功率密度解决方案,含括风冷型智能算力模块及液冷型智能算力模块双系列产品,可实现智能高算力应用业务部署的安全、稳定、高效节能运行。

  京东云液冷型智能算力模块,可全面兼容GPU、CPU服务器,PUE制冷因子可降低至0.1以内,并支持风冷、液冷系统一体化交付,预制模块化部署,全面满足算力密度20-100kW/柜数据中心部署需求。

  共创共建,探索大模型落地

  目前,京东云以前沿的数智技术,共服务100座城市、2500余家大型企业、944家金融机构和超250万家中小微企业。具体到陕西省,京东云为“中国西部能源航母”陕煤集团搭建了运销云,促进煤炭行业数字化转型和国家能源供应的改善,推动陕煤业务流程缩短了40%;此外,京东云已与陕数集团达成合作,针对政府及重点国企数据及关基防护的需求,推进密改、密评及相关业务合作,持续深化在智慧物流、大数据等创新应用等方面的业务合作。

  会议当天,京东云还与陕数集团、农信通集团、宁算科技集团、青山湖产控、智云天工、兰杜科技进行合作签约,携手探索数智技术在产业端的落地,塑造全新增长空间。

  技术只有在产业端形成扎实的应用,才能勾画出一条以实助实的产业价值创造路径。面向未来,京东云愿与合作伙伴一道,以极致性价比的数字基础设施助推大模型抵达产业智能。

不容错过
Powered By Z-BlogPHP