use-case-and-architecture/CFN-Overview-&-Use-Case-Exp...

58 KiB
Raw Permalink Blame History

sion# CFN Overview & Use Case Exploration


Versions:

Version Date
0.5 June, 2023
1.0 November, 2023

Contributors: Jianchao Guo (AsiaInfo), Jian Xu (China Mobile), Jie Nie (China Mobile), Jintao Wang (China Mobile), Lei Huang (China Mobile), Qihui Zhao (China Mobile), Weiguo Hu (99Cloud), Weisen Pan (China Mobile), Xiaoqiao Geng (Inspur), Yong Chen (Nokia), Yongfeng Nie (Huawei), Zhihua Fu (H3C)


1. Introduction

近年来在政策牵引、技术创新和需求导向的多重驱动下数字经济发展速度之快、辐射范围之广、影响程度之深前所未有正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。在数字经济时代全球数据总量和算力规模继续呈现高速增长态势2021年全球计算设备算力总规模达到615EFlops增速达到44%其中基础算力规模为369EFlops,智能算力规模为232EFlops超算算力规模为14EFlops2030年人类将迎来YB数据时代全球算力规模达到6ZFlops平均年增速达到65%其中基础算力达到3.3ZFlops,平均年增速达27%智能算力达到52.5ZFlops,平均年增速超过80%超算算力达到0.2ZFlops,平均年增速超过34%。与此同时AI、元宇宙等新型领域的崛起更加推动了全球算力规模的快速增长驱动计算技术与产品的多元创新带动产业格局的重构重塑。算力作为数字经济时代新的生产力其重要性被提升到了新的高度成为支撑数字经济发展的坚实基础、全球经济发展的重要引擎对推动科技进步、行业数字化转型以及经济社会发展发挥重要作用。

  而随着算力的持续快速发展,也面临着应用多元化、供需不平衡等一系列挑战,而无处不达的网络,为算力的分层分布和算力间的深度协同奠定了基础。在此背景下,算力网络应运而生,算力网络就是把分散部署的泛在算力,与无处不在的全域网络资源进行互联,使应用能按需、实时调用不同地域的计算资源,通过最佳的资源分配方案实现资源的最优使用,为千行百业提供像“自来水”一样即取即用、触手可达的算力服务。未来,算力网络会像今天的电网、通信网和高铁网一样,成为数智化时代的新型基础设施,为为全球数字经济发展提供强劲动力。

  本文将从用户角度解读算力网络概念、梳理当前业界算力网络的进展、分析算力网络的主要应用场景,并提出构建算力网络存在的问题与挑战,从而针对如何进一步推动算力网络的加速成熟,以及实现算力网络社会级服务的最终愿景提出建议。

2. What is computing force network from user perspective

2.1 Concept of computing force network

  “算力网络”是近年来产业界的热点,目前人们对算力网络的概念、定义和范畴的理解还不完全统一,但也存在一些相对主流且相似的定义:

  • 中国移动《算力时代》一书中定义“算力网络是以算为中心、网为根基网、云、数、智、安、边、端、链ABCDNETS等深度融合、提供一体化服务的新型信息基础设施。算力网络的目标是实现算力泛在、算网共生、智能编排、一体服务逐步推动算力成为与水电一样一点接入、即取即用的社会级服务达成网络无所不达、算力无所不在、智能无所不及的愿景”侧重描述算力网络是一项融合基础设施计算能力是核心、网络接入是基础、即取即用是效果。
  • 中国电信在《云网融合2030技术白皮书》中定义“算力网络是一种利用网络控制面传递算力等资源信息并以此为基础实现多方、异构的计算、存储、网络等资源之间的信息关联与高频交易的技术体系以满足新兴业务提出的随时、随地、随需的多样化需求从而解决不同类型云计算节点规模建设后的算力分配与资源共享需求难题”指出算力网络是技术体系是网络与大规模云计算节点的融合目的是提供灵活的算力分配和资源共享。
  • 中国联通提出以网为中心实现算力网络,在《中国联通算力网络白皮书》中认为“算力网络的出现是为了提高端、边、云三节计算的协同工作效率”,通过算力网络保证智能机器的高效工作和快速响应,以便支撑智能机器更好的服务人类。

综合解读上述定义算力网络是一种新型信息基础设施其最为核心的基础能力是算力和网络。其中算力是指遍布在云、边、端等地理位置的分布式、泛在化的计算能力可来源于云计算节点、边缘计算节点、终端设备、网络设备等为信息数据处理提供基础网络是指包含光接入网络、光传输网络、IP网络、SDN、确定性网络等在内的高速互联、高效可靠的网络能力可为用户、数据、算力的互联提供保障。 除基础能力之外,算力网络的主要特点将计算和网络深度融合,通过无处不在的网络把分散部署的多样算力资源互联,并通过集中控制或者分布式调度等方法将计算资源、存储资源、网络资源、安全资源等进行协同,动态实时感知算力资源状态和位置,统筹分配和调度计算任务、传输数据,使海量的应用能够按需、实时调用不同地域的计算资源,从而保证为用户提供平等共享、精准匹配、位置无感、按需弹性的算力服务。

从技术角度看算力网络并不是某项单点技术的创新它是在现有的孤立的计算、存储、网络、安全等基础设施之上通过对资源进行纳管、整合、调配、重优化等一系列措施实现算力即服务CaaSComputing as a Service。它更多的是理念创新、商业模式创新、生态创新。类似SDN概念出现的时候也是对网络的一个理念创新而并没有大的网络技术的革命。它与云计算的终极目标类似将在当前云计算简单地以CPU数量、GPU数量、网络带宽、存储容量等为单位的资源式交互服务模式之上向任务式交互服务模式演进进一步向用户屏蔽后端算力及网络的复杂度。因此算力网络更多是计算和网络的融合打破以前两者的壁垒让用户不用关心提供算力服务的具体硬件形态、物理位置等而更聚焦于任务执行本身。算力网络虽然名称上以网络结尾但其实在内涵上是以计算为中心的。

2.2 Capability type of computing force network

  由于算力网络以计算为中心,本节将首先从几个不同的维度对算力分类。其他算力网络能力的分析将在后续逐步更新完善。

  1. 根据算力类型的不同,可以将算力分为通用算力和专用网络:
  • 通用算力: 由基于X86架构、ARM架构的CPU芯片组成主要用于基础通用计算可处理多样化算力任务灵活性较强但功耗较高。通用算力占整体算力的比重由2016年的95%下滑至2020年的57%,虽然通用算力未来仍会是主要算力类型之一,但其比例会进一步减少。
  • 专用算力:
    • 智能算力: 由GPU、FPGA、ASIC等AI芯片构成的算力主要用于人工智能的训练和推理计算比如语音、图像和视频的处理。在技术架构上人工智能的核心计算能力由训练、推理等专用计算芯片提供注重单精度、半精度等多样化计算能力。在应用方面人工智能计算中心主要支持人工智能与传统行业的融合创新与应用提升传统行业的生产效率在自动驾驶辅助诊断、智能制造等方面作用显著。智能算力规模近年增长迅速在整体算力中的占比已由2016年的3%提升至2020年的41%,预计截止今年(2023)智能算力的占比将提升至70
    • 超算算力: 由超级计算机等高性能计算集群构成的算力主要用于尖端科学领域的计算比如行星模拟、药物分子设计、基因分析等等。在技术架构上超算的核心计算能力由高性能CPU或协处理器提供注重双精度通用计算能力追求精确的数值计算。在应用方面超算中心主要应用于重大工程或科学计算领域的通用和大规模科学计算如新材料、新能源、新药设计、高端装备制造、航空航天飞行器设计等领域的研究。超算算力在整体算力中的占比较为稳定约为2%。
  1. 根据算力位置/算力来源的不同,可分为超算中心算力、智算中心算力、公有云算力、网络云算力、私有云算力、边缘算力、终端算力等:
  • 超算中心算力: 由超算中心提供的算力一般指高性能CPU算力。
  • 智算中心算力: 由智算中心提供的算力一般指GPU、DSA、FPGA等AI领域算力。
  • 公有云算力: 由公有云提供的算力一般包含通用能力和以GPU为主的专用能力。
  • 网络云算力: 由运营商在网络功能虚拟化NFV之后构建的网络云数据中心提供的算力该类算力一般专用于部署电信类网元如5GC、IMS、EPC、音视频网元等、MANO系统、网管系统等。由于网络云有超高的安全性、可靠性等要求因此封闭性较强如何使用网络云为算力网络提供算力仍需探索。
  • 私有云算力: 由企业内部数据中心提供的算力该类算力多用于部署企业专用的软件比如企业OA系统、工业管理系统、开发环境等。是否可使用私有云为算力网络提供算力需根据企业安全性要求灵活确定可能存在无法提供算力、可在特殊安全隔离要求下提供算力等多种情况。
  • 边缘算力: 边缘算力是对公有云、网络云等相对集中的云计算算力的补充。其单点算力数量较少、计算能力较弱但分布广、数量多可来源于网关、路由器、交换机、边缘云、边缘计算服务器等。此外边缘算力类型差异大可由CPU、GPU、FPGA等多种异构计算芯片构成。该类算力多用于支撑部署在边缘的应用完成计算任务包括但不限于人工智能推理类应用、视频处理等。将边缘算力纳入算力网络面临灵活调度、高效管理、稳定支撑等方面的挑战。
  • 终端算力: 由PC、手机、平板、VR设备等个人设备提供的算力其计算能力更小、位置分布更散、数量更多。如果使用这类算力也是个难题。

  当前,因技术、安全等各方面因素,算力网络将优先考虑协同来源于超算中心、智算中心、公有云、边缘云的算力,其他算力可逐步纳入。

2.3 Service pattern of computing force network

如2.1节所述算力网络向用户提供算力即服务CaaSComputing as a Service有着与云计算相似的算力内核因此算力网络服务模式可类比云计算服务模式分为以下三类

  1. 资源型服务

算力网络资源型服务类似于现在公有云提供的云主机、云硬盘以及云网络等直接算力服务。这类服务的特点是对于算力网络管控系统来说只需要完成资源调配工作不用关心用户如何使用算力。用户往往需要通过portal界面或控制台来完成这类服务的申请和开通。当然和公有云不同的是算力网络可能对接不同厂商不同形态的云或边缘算力。另外这类资源性服务有可能需要创建访问算力的广域网路径即需要保证用户访问算力的网络质量。当然用户也可能通过公共互联网来访问这取决于用户的需求。

  1. 平台型服务

算力网络平台型服务是类似于PaaS的间接算力服务模式由算力网络系统帮助用户去部署其自主开发的应用然后运行用户应用并监控应用的运行过程同时还可以提供应用访问、扩缩容等功能。这种服务类似于Kubernetes通过对容器的编排和管理实现平台即服务(PaaS)。在实现这类服务时,算力网络实际底层还是需要基于其纳管的算网资源来进行调度、编排、部署等,用户还需要关注其业务逻辑。

  1. 应用型服务

算力网络应用型服务类似于现在公有云提供的SaaS服务模式一般指用户来通过服务商平台选择一个具体的应用服务算力网络为用户部署应用用户可通过API访问应用服务无需关注系统、软件、部署位置等细节。

  1. 任务型服务

任务型服务Task as a Service是算力网络最智能最理想的服务类型。用户仅需向算力网络提供对任务的描述性说明如“需要在靠近学校A的位置部署一套视频监控类业务”算力网络服务商可理解用户需求如业务类型、服务质量、可靠性、安全、成本等需求、自主灵活选择算力中心、选择适合业务场景的业务部署并配置好业务后向算力网络管控平台注册应用实例的资源及业务信息等定期上报应用状态更新。算力网络需要感知应用实例的位置和状态生成访问这些应用的路由策略并向网络中的路由节点下发。路由节点收到访问应用的报文后根据下发的路由策略进行转发。这些策略往往需要综合考虑应用的算力状态和网络状态以此做出最优决策。当然应用的感知和路由策略生成也可以由网络节点自行完成。

2.4 Computing force network VS Integrated cloud and network

  由于“算力网络”与“云网融合”的核心基础能力都是算力和网络,两者常常被联合比较,甚至作为等同概念被提及,本节分析两者的异同点。

  整体而言,“算力网络是对云网融合的深化和新升级,云网融合是算力网络的初级阶段。云网融合在内涵上、阶段上、影响范围上都是算力网络的一个子集”。详细区别可从以下几点来看:

  • 区别1算力是核心但来源不同。 算力网络中的算力来源更丰富,算力的提供方不再是专有的某几个数据中心或集群,理想情况下可来源于任何具备计算能力的设备,包括但不限于云数据中心、网络设备、终端设备、超算中心、智算中心等,并通过云边端的形式将泛在的算力通过网络化的方式连接在一起,实现算力的高效共享。而云网融合中的算力主要来源于云数据中心。
  • 区别2网络是基础但与算力的协同方式不同。 对于云网融合而言算力和网络分工界面比较简单通过一个网关就可以由算关联到网。而对于算力网络算力和网络可能多点、多次交互两者的协同不再是通过分离的网络管理组件和算力管理组件。从算力服务商的角度来看算网应具备结构化特征。以应用型服务为例①用户向算力网络提出应用的SLA、可靠性、安全性需求②算力网络将负责将此类描述性需求转变为显性结构化需求对应的高质量SLA需要泛在算力结合确定性网络组成特定结构高可靠需要位置相关的特定冗余结构高安全可能需要使用虚拟网络隔离等结构③最后算力网络应当按照结构化的、完整的需求进行资源发现、编排和调度。
  • 区别3算力和网络边界不同。 算力网络中的算力逐步走出云传统上的封闭边界,与网络广泛附着,从贯通云、网的端到端网络视角,相当于在网内也有算力的存在。此外,网络设备中存在的少量算力也可以被用以数据处理。
  • **区别4运营服务模式不同。**云网融合通常将计算和网络资源视为独立的资源进行优化、调度并对外提供服务。而在算力网络中,计算和网络资源被视为一个整体进行优化和调度,可以更好地满足复杂的业务需求,如服务质量、可靠性、安全性等。同时算力网络也需要开发新的应用服务模式和架构,以更好地适应其计算和网络资源的分布式和泛在特性。

3. Related study area of computing force network

在中国移动《算力网络白皮书》中将算力网络体系划分成了3层包含运营服务层、编排管理层、算网基础设施层。其中算网基础设施层主要提供泛在的算力基础设施用以满足中心级、边缘级、现场级的算力需求和高效的网络基础设施用以支撑用户灵活通过网络接入泛在算力编排管理层是算力网络的调度中心算网大脑是编排管理层的核心整体向下实现对算网资源的统一管理、统一编排、智能调度、全局优化等向上提供算网调度能力接口支撑算网络多的多元化服务服务运营层是面向用户的服务层一方面可基于底层算网资源形成多种业务向用户提供算网服务另一方面可与其他算力供应商协同构建统一的交易服务平台提供“算力电商”等新型商业模式。

算力网络技术图谱(摘自中国移动《算力网络白皮书》)

(如想了解更多图谱中具体的技术领域,可参见中国移动《算力网络白皮书》、《算力网络技术白皮书》)

  上图是中国移动提出的算力网络技术图谱,其中罗列了相关技术研究领域,并将各领域归类到不同层级。图中,算网基础设施层中的算力基础设施和网络基础设施中涉及到的技术领域与云计算和网络发展相关技术领域并无显著区别,进而说明算力网络在底层基础技术上并不是全新的技术领域,而是基于已有技术领域的演进。此外,算网基础设施层中的算网一体部分是算力和网络融合关键,也是算力网络实现任务式交互服务模式的最核心保障技术,此部分可基于算网进行创新。图中的编排管理层和服务运营层将会产生大量商业模式、服务模式、管理模式的创新,是未来算力网络服务商商业竞争力的体现。

  本文暂不涉及图中技术领域实现过程中的总体软件架构、技术选型等,相关内容后续将在本工作组的多个子工作组中展开讨论。

4. Use Cases

4.1 基于算网融合的VDI云桌面

场景名称
基于算网融合的VDI云桌面
贡献者 新华三-付志华
应用名称 VDI云桌面
场景描述 随着全社会全行业数字化转型的不断变革云上办公变得越来越普遍。云上办公具有资源随选方便快捷移动性强等特点受到大中型企业的青睐。云桌面是一种具体的实现方式。通过集中管理企业员工所需要的办公计算资源采用规模化数字化的手段可以减少企业IT运营和成本支出提高生产效率。由于企业有遍布全国乃至全球的分支机构既有对算力的要求也有对网络的要求。因此此场景可以认为是算力网络的一个典型场景。
当前解决方案及Gap分析 传统云桌面解决方案通常根据员工所在地理位置静态分配一个云桌面不考虑网络状态和员工移动到另一个地方是否还能得到跟本地一致体验。企业整体IT资源利用率也无法达到最优。
算力网络需求推导 基于算网融合下的VDI云桌面需求
1. 用户使用云桌面时根据云桌面的用途对时延和带宽有不同的要求。例如办公类的云桌面一般要求时延小于30ms带宽2M左右。如果是仿真设计类的云桌面则时延更低带宽要更高。因此VDI场景需要算力网络在选择VDI资源池的时候能根据用户的云桌面类型计算出合适时延和带宽的网络路径。要求算力网络具有网络调度能力。
2. 另外根据云桌面类型的不同,其要求的计算/存储资源也会有所不同。例如设计仿真类的云桌面需要带GPU、需要若干CPU核及若干内存等等。因此VDI场景还需要算力网络在选择VDI资源池的时候能根据云桌面类型匹配合适的硬件形态和容量。要求算力网络具有计算调度能力。
3. 用户可能随时出差或外派需要算力网络能根据用户新的位置调整云桌面资源执行云桌面迁移或备份保证用户一致性体验。企业整体IT资源利用率达到最优。
参考实现与流程 此场景下需要VDI管理系统(下文称VDI Center)和算网大脑联动。系统示意图:
VDI示意图
具体工作流程:
1. 企业在不同地理位置部署云桌面服务器资源池。可以自建私有云数据中心也可以使用公有云服务。VDI Center为一个集中的VDI云桌面管理系统。VDI Center向算网大脑报告所有计算资源信息。算网大脑同时维护企业上网接入POP点网PE和IT资源中心POP点(云PE)信息。
2. 用户需要申请云桌面携带网络SLA要求、计算资源要求向VDI Center提出申请。
3. VDI Center向算网大脑请求合适的资源池并计算从用户分支站点到资源池的网络路径满足SLA要求。算网大脑返回资源池信息并预留建立路径。
4. VDI Center拿到最优的资源池信息后通过该资源池的云管平台申请计算资源。并将计算资源的信息返回用户。
5. 用户通过之前建立的路径访问云桌面。
6. 用户出差到其他区域,发起云桌面迁移请求。
7. VDI Center重新向算网大脑请求新的合适的资源池。算网大脑重新优化资源池并建立新路径。返回VDI Center。
8. VDI Center发现新的资源池发起虚机迁移过程。
9. 用户通过新路径访问新的云桌面。
技术发展及开源工作建议 建议增加对算力网络编排管理层中算网大脑的研究:
1. 综合计算信息和网络信息有一套多目标优化的调度算法。VDI场景只需要维护IaaS底层资源信息不关心PaaS/SaaS类算力服务信息。
2. 能够管理多种不同形态的资源,并建立统一的度量衡。

4.2 基于AI的算力网络流量控制与算力匹配

场景名称
AI as a Service/AI即服务
贡献者 中国移动美研所-潘伟森
应用名称 基于AI的算力网络流量控制与算力匹配
场景描述 1. 算力网络集成了分布于不同地理位置的分布式和泛在化的计算能力,其来源包括了各种计算设备如云计算节点、边缘计算节点、终端设备、网络设备等, 在算力网络环境中的计算任务量大、类型多样包括数据分析、AI推理、图形渲染等各类计算任务在这种情况下传统的流量控制策略可能无法有效处理任务的多样性和量级可能导致计算资源的浪费、计算任务的延迟、服务质量下降等问题。为了解决这些问题可以采用基于AI的流量控制与算力匹配通过收集大量的网络流量数据、设备状态数据和任务需求数据使用深度学习算法训练AI模型。模型能够学习到网络流量和计算任务的模式预测未来的流量变化和任务需求以及设备的计算能力并根据这些信息实时调整流量控制策略与算力匹配策略。
2. 在AI的帮助下运营商能够更有效地管理流量和算力减少网络拥堵提高计算资源的利用率降低计算任务的延迟提高服务质量。例如在预测到大量的数据分析任务将要到来时AI系统可以提前调整网络配置优先将计算资源分配给这些任务以满足需求。在预测到计算设备的能力不足以处理即将到来的任务时AI系统可以提前调整流量控制策略将部分任务重定向到其他设备以防止拥堵。
3. 基于AI的算力网络流量控制与算力匹配将大规模的算力网络带来了显著的性能提升使得运营商能够更好地管理计算资源满足各类计算任务的需求。
AI流量协同示意图
当前解决方案及Gap分析 基于AI的算力网络流量控制与算力匹配通过人工智能技术可以实时监测算力网络状态动态预测网络流量需求自动优化算力网络资源分配和负载均衡。还能通过深度学习算法不断学习和改进自己的流量控制策略使其更加适应复杂和多变的网络环境。
Gap分析
1. 动态性与自适应性传统的流量控制方法往往较为静态难以适应未来算力网络环境的快速变化。而基于AI的流量控制与算力匹配则具有很强的动态性和自适应性可以根据实时的网络状态和预测的流量需求动态调整流量控制策略和算力分配策略。
2. 学习与改进传统的流量控制方法往往缺乏自我学习和改进的能力。而基于AI的流量控制与算力匹配则可以通过深度学习算法不断学习和改进自己的流量控制与算力匹配策略使其更加适应复杂和多变的网络环境。
3. 对未来技术的适应性随着算力网络及相关应用的快速发展未来的算力网络环境和流量需求可能会更加复杂和多变。因此基于AI的流量控制与算力引导对于未来算力网络和相关应用具有更好的适应性和前瞻性。
算力网络需求推导 在算力网络中,流量控制和算力合理的匹配对于确保高效运行和资源优化至关重要。这需要一种能够实时、动态地调整流量控制策略和算力匹配的系统。基于人工智能的流量控制和算力匹配有望满足这种需求。以下是具体的需求推导过程:
1. 高效率的资源利用在大规模、分布式的算力网络中资源的使用效率直接影响到整个网络的运行效率和成本。通过AI技术能够更精准地预测和调度流量使得资源得到更合理、更高效的利用。
2. 动态调整和优化网络流量和任务需求可能会随时间、应用和用户行为发生变化这就需要流量控制策略能够实时响应这些变化。AI技术可以通过实时学习和预测实现动态调整和优化流量控制策略并合理的匹配到最优的算力。
3. 负载均衡在面对流量突发变化或任务需求变化时保持网络负载均衡至关重要。AI技术可以通过实时监控和预测网络状态动态调整流量和任务分布保持负载均衡。
4. 服务质量保证在保证服务质量方面AI技术可以根据预测的网络状态和任务需求优先满足重要任务和服务的需求从而提高服务质量。
5. 自动化管理通过自动学习和更新规则AI技术可以减轻算力网络管理的工作负担实现更高程度的自动化管理。
因此引入基于AI的流量控制和算力引导不仅可以提高算力网络的运行效率和服务质量还可以实现更高程度的自动化管理这是符合算力网络发展需求的。
参考实现与流程 1. 数据收集收集算力网络中的历史数据如各节点的算力利用率、任务执行时间、网络延迟等以此作为训练AI模型的数据基础。
2. 数据预处理:对收集到的数据进行预处理,包括数据清洗、格式转换、特征提取等。
3. 模型选择训练根据算力网络的特点和需求选择合适的AI模型如深度学习模型、强化学习模型等进行训练。训练的目标是让AI模型学会如何在各种条件下进行最优的流量控制和算力分配。
4、模型测试与优化在模拟环境或实际环境中测试训练好的AI模型根据测试结果进行模型的调整和优化。
5、模型部署优化好的AI模型部署到算力网络中根据实时网络状态和任务需求进行流量控制和算力引导。
6、 实时调整:模型在部署后需要根据实时收集到的网络状态和任务需求数据进行动态调整和优化。
7、模型更新根据网络运行情况和模型性能定期对模型进行更新和优化。
8、持续监测和调整在模型部署后需持续监测网络状态和任务执行情况根据需要对AI模型进行调整并周期性地重新训练模型以应对网络环境的变化。
技术发展及开源工作建议 1. 在技术发展上一是考虑集成多个AI模型不同的AI模型可能在处理不同类型的任务或应对不同网络状态时效果更佳可以考虑集成多个AI模型通过集成学习方法优化整体性能二是自适应算法的开发随着网络环境的变化需要实时调整AI模型的参数以应对这些变化。这就需要开发更为智能和自适应的算法以便在没有人工干预的情况下自我优化。
2. 在开源工作方面一是公开和共享算力网络的历史数据让更多的研究者可以基于这些数据进行模型的训练和测试。同时也可以共享已经训练好的AI模型以供其他人使用和优化二是建立标准和规范为了确保不同开源项目的协同和互操作需要建立一套通用的标准和规范这包括但不限于数据格式、API设计、模型训练和测试的方法等。

4.3 算力网络视频调度

场景名称
算力网络视频调度
贡献者 浪潮-耿晓巧
应用名称 面向视频应用的算网一体调度
场景描述 基于轨道交通等智能视频场景,以客户业务为中心,构建算网一体的任务式服务调度能力,感知并解析用户对时延、成本等的业务需求,进行计算、存储等资源的协同调度和分配,并实现调度策略的动态优化,实现向客户提供按需、灵活、智能的算力网络服务,同时广泛适配各类行业应用场景,赋能视频业务智能转型。
当前解决方案及Gap分析 1算网资源异构、泛在业务复杂且性能要求较高传统解决方案中网、云、业务存在协同壁垒无法满足各类场景调度需求。
2业务高峰期数据传输量大、网络负载高导致高时延影响视频业务服务质量对视频调度方案的优化提出了更高的要求与挑战。
终端摄像头与网络协同示意图
3、视频业务智能化不足未形成全流程自动化监管与预警处置闭环。
算力网络需求推导 1.基于对资源状态和业务需求的感知度量,结合优化算法,在不同时间段和不同站点进行算力资源的优化调度和分配,构建面向行业应用的算网调度协同技术体系。
2面向各类视频用户提供任务式服务最优路径、最近距离、最低成本及AI智能视频服务。
参考实现与流程 算力网络一体化调度示意图
1感知、采集、分析底层算力资源、网络资源和存储资源以及感知用户业务类型和对时延、传输数据量、上传流量等的需求。
2面向用户对时延、成本等的业务需求结合系统整体建模、业务规则分析、优化策略求解以及系统模块对接等提供分时潮汐调度、跨区域调度和智能编排调度等能力。
3实时评估当前调度策略是否能够满足用户业务需求将相关指标反馈给智能调度模块智能调度模块基于此对调度策略进行动态优化调整。
4将视频处理、AI推理、数据处理等处理任务灵活下发到相关计算资源中提供视频数据自动备份、AI训练、AI视频实时推理等智能视频作业服务。
技术发展及开源工作建议 1.将AI智能视频能力与算力网络相结合满足行业场景多样化需求。
2.建议展开算网资源度量相关研究,为算力网络提供统一资源模板。

4.4 基于多方安全计算的借贷风险评估

场景名称
基于多方安全计算的借贷风险评估
贡献者 亚信-郭建超
应用名称 隐私计算
场景描述 当个人/企业向银行进行贷款申请时,银行需评估借贷风险,排查用户多头借贷及超额借贷的风险。通过搭建的隐私计算平台,运用隐私查询、多方联合统计,联合多家银行,在贷前对用户各银行的借贷总额进行联合统计。银行收到联合统计结果后,决定是否向用户发放贷款。
在该场景下,隐匿查询服务和多方联合统计服务与算力网络高度相关:
1. 隐匿查询服务通过隐私计算查询方可隐藏被查询对象关键词或客户ID信息数据提供方提供匹配的查询结果却无法获知具体对应哪个查询对象能杜绝数据缓存、数据泄漏、数据贩卖的可能性。
2. 多方联合统计服务:通过隐私计算,可使多个非互信主体在数据相互保密的前提下进行高效数据融合计算,达到“数据可用不可见”,最终实现数据的所有权和数据使用权相互分离。
隐私计算场景示意图
当前解决方案及Gap分析
算力网络需求推导 “不解决算力和通信问题,隐私计算的大规模应用将无从谈起”,隐私计算技术对算力要求和依赖度很高,面对越来越多的数据,分布式模型需要大量通信网络支撑,对于算力,需要按照服务的全场景情况对算力进行快速智能分配及实时调度。
1. 计算密集型:采用大量密文计算,加密后的数据计算将会产生大量的算力开销,单次模型训练与迭代的耗时将会呈现指数级增长。
2. 网络密集型:隐私计算模型分布多个计算方,应用往往需要频繁通信以交换中间结果,加之以密态来传递中间结果。
3. 存储密集型:数据计算过程和结果对存储有大量的存储需求,需要及时提供存储能力。 除了资源维度上的要求,该场景对于算网融合调度也提出了更高的要求。该场景的部署采用 “联盟端+管理端”的方式,采用分布式密文计算架构,进行云及本地部署,同时可灵活投入硬件与计算资源,快速实施部署和升级。在该场景中,隐匿查询服务和多方联合统计服务涉及到多地算力节点的协同计算、节点之间数据密文以及加密算法的协同,需要算力网络具备算力和网络的协同调度能力,满足网络传输需求的同时,综合考虑传输时延、计算节点的任务执行时延,杜绝算力短板引发的“木桶效应”。同时,需要算力网络具备动态的资源调度能力,能够实时满足业务调度的需求。
隐私计算协同示意图
参考实现与流程 隐私计算与算力网络协同流程图
1. 银行方发起联合模型训练方案业务请求;
2. 算网运营交易中心向算网大脑提出业务请求;
3. 算网大脑分析业务请求(可能包含位置、资源需求等) 查询可用节点及路径(专线/专网),回复算网运营中心可选方案;
4. 算网运营中心答复资源需求方方案及价格信息;
5. 资源需求方答复确认方案;
6. 算网运营中心将选择的方案发松给算网大脑;
7. 算网大脑进行方案自验证(基于数字孪生技术或其它仿真技术);
8. 向算网运营交易中心答复方案自验证情况(算力、网络、资源等信息确认) ;
9.算网运营中心确认方案;
10. 算网大脑向算网基础设施层发起资源开通和路径(网络)建立请求;
11. 算网基础回复资源开通和路径建立;
12. 业务开通回复;
13. 算网运营交易中心答复资源需求方业务开通,资源需求方进行模型训练及部署后的模型推理等.
技术发展及开源工作建议

4.5 基于算力网络的AI应用跨架构部署迁移

场景名称
基于算力网络的AI应用灵活部署迁移
贡献者 中国移动研究院-赵奇慧
应用名称 /
场景描述 用户在向算力网络申请AI服务时以人脸识别业务AI推理类为例将提供应用名称、待处理的数据集信息如图片传输接口、图片数量、图片大小、倾向的检测地点、处理速率、成本约束等由算力网络自行根据用户需求选择合适的算力集群部署人脸识别业务、完成配置并提供服务。
由于算力网络将来源各异、类型各异的算力构成一张统一的网络凡符合用户SLA需求具体承载该人脸识别业务并提供计算的底层算力可以有多种选择可为英伟达GPU、Intel CPU、华为NPU、寒武纪MLU、海光DCU及众多其他智算芯片中的任意一种或多种组合。因此AI应用在算力网络中的多种异构异厂商智算芯片上部署、运行、迁移是算力网络的典型应用场景之一。此场景与云计算智算应用跨架构迁移场景类似。
除用户向算力网络申请AI服务外上述场景也适合用户在算力网络中部署自研AI应用。
当前解决方案及Gap分析 AI应用也即AI服务的运行一般需要“AI框架+工具链+硬件”支撑,其中: AI框架指PaddlePaddle、Pytorch、TensorFlow等硬件指各设备商的智算芯片工具链是各设备商围绕各自智算芯片构建的系列软件包含但不限于IDE、编译器、运行时、驱动等。目前用户在模型、应用研发设计阶段就需要选择编程语言、框架模型、指定硬件后端并进行一体编译链接。如需实现AI应用在算力网络中的任意算力后端上运行则需要针对不同的智算芯片、使用各芯片匹配的开发工具链等开发出多个版本并完成编译然后依托芯片匹配的运行时完成部署。整体开发难度大、软件维护成本高。
智算生态壁垒示意图
算力网络需求推导 1. 为简化用户开发和部署AI应用的难度算力网络需协同AI框架、芯片及相关工具链形成支持AI应用跨架构部署运行的软件栈面向用户屏蔽底层硬件差异支持用户AI应用的一次开发、随处部署。
算力原生逻辑方案
2. 算力网络需理解用户描述性SLA等需求支持将其转换成可被云网基础设施理解的资源、网络、存储等需求并支持形成符合用户SLA需求的多种资源组合方案。
3. 算力网络需依据统一标准对底层异构异厂商硬件进行度量以支持算力网络针对用户描述性SLA需求计算出不同的资源组合方案。
4. 算力网络需支持监控整个算力网络状态,并根据上述计算得出的资源组合完成资源调度、应用部署等。
参考实现与流程 本部分仅针对AI应用跨架构部署迁移设计的一种解决方案也可存在其他实现与流程。
应用跨架构部署流程图
具体工作流程:
Pre1. 编排管理层已纳管底层算力资源池,并实时监控池内资源情况。
Pre2. 算力服务商根据底层算力资源池内的资源类型准备跨架构基础镜像并在编排管理层的中央基础镜像仓库中注册该镜像。跨架构基础镜像中至少包含跨架构runtime。该跨架构runtime可对上层业务提供统一的算力资源抽象从而屏蔽底层硬件差异对下可对接不同AI芯片的runtime或driver或指令集将应用的算力抽象调用转译成芯片对应工具链的API调用或指令集调用以便最终完成计算任务。
1. 算力网络为AI应用开发者即用户提供灵活可装载的本地跨架构开发环境包含跨架构IDE编译器、SDK等、跨架构环境模拟器根据用户本地底层硬件类型灵活适配对应用模拟统一抽象的算力资源以便完成应用调试
2. 用户完成AI应用开发后通过跨架构开发环境生成可跨架构执行的业务可执行文件并上载到算力网络编排管理层的跨架构业务可执行文件库中。
3. 用户向算力网络提出AI应用部署描述性SLA需求编排管理层接收SLA请求。
4. 编排管理层根据多类资源统一监控数据解析SLA需求转化成算网基础设施层可理解的资源需求该资源需求可存在多种资源组合在用户选择具体组合方案后触发业务部署。
5. 业务部署过程首先完成AI应用镜像及部署文件的生成。对于镜像将结合用户选择的底层资源类型从中央基础镜像仓库中拉取对应的跨架构基础镜像并自动与待部署AI应用的跨架构可执行文件打包生成完整的跨架构业务镜像并将该完整业务镜像下发到底层资源池内的镜像仓库中。对于部署文件将根据底层环境类型裸机环境、容器环境、虚机环境、解析的资源需求、镜像位置、业务配置等信息/文件生成自动部署文件可为脚本、Helm Chart、Heat模板等
6. 基础设施层资源池内的编排管理组件根据部署文件、镜像等内容部署AI应用。
7. 若AI应用需迁移到其他芯片资源池CPU、FPGA、ASIC等将重复4、5、6三个步骤。
技术发展及开源工作建议 1. 建议增强AI应用跨架构部署迁移方案的研究可依托CFN WG-算力原生子工作组探索参考实现。当前业界现存的阿里HALO+ODLA、Intel的 DPC++ 与LevelZero等开源方案可作为该解决方案探索的基础。
2. 建议展开算网度量的研究,以便为算力网络提供统一资源模板。
3. 建议挖掘用户描述性SLA需求并研究该需求向具体资源需求转化的方式详细可参见PaaS、SaaS、FaaS等服务模式。

4.6 算力网络裸金属管理

场景名称
算力网络裸金属管理
贡献者 中国移动研究院-王锦涛、中国移动研究院-赵奇慧
应用名称 /
场景描述 根据2.3节,算力网络提供资源型服务模式,支持用户直接向算力网络申请裸机、虚机、容器等资源。部分用户也因性能、安全、业务虚拟化/容器化改造难度等方面的考虑,更倾向于使用裸金属服务。传统裸金属服务资源难以灵活配置、客户需要定向适配各类驱动、发放和管理流程冗长,无论是客户体验还是管理运维手段,较虚拟化服务有较大差距。因此如何实现算力网络服务商灵活管理和运维多样基础设施、并简化用户使用裸金属是算力网络数据中心的重要需求。该场景也适用于云计算及云网融合领域。
当前解决方案及Gap分析 对算力网络服务商而言在传统的裸机发放流程中在Inpection阶段需要手动配置网络在provisioning和tenant阶段需要多次网络切换、节点安装和重启操作整体流程复杂冗长与虚拟机发放流程差异较大。对于用户而言网卡数量和存储规格固定无法满足不同用户的差异化网卡及存储需求此外裸金属网卡驱动及存储客户端等均对用户可见需要用户进行定向适配进一步增加用户使用裸金属难度同时块存储网络暴露在客户操作系统也存在安全风险。
传统裸机管理方案
算力网络需求推导 算力网络实现与虚拟机类似的便捷裸金属管理及发放和管理:
1. 裸金属服务器全自动化发放,通过控制台自助申请,无需人工介入,即可完成自动化镜像安装、网络配置、云盘挂载等功能;
2. 完全兼容虚拟化平台云盘系统,使用云盘启动,免操作系统安装,进行云硬盘的挂载和卸载,满足弹性存储的要求,同时兼容虚拟机镜像系统;
3. 兼容虚拟机VPC网络实现裸金属服务器和虚拟机网络互通支持自定义网络实现裸金属服务器之间互通实现灵活组网。
参考实现与流程 DPU裸机管理方案
在裸金属服务器配置DPU卡裸金属实例的网络端口和磁盘设备全部由DPU提供。DPU上运行了云平台的管理、网络和存储相关的组件管理模块负责裸金属实例生命周期的管理网络模块负责裸金属虚拟网口的实现和网络流量的转发存储模块负责裸金属云盘的实现和存储网络协议栈的终结。在DPU场景下裸金属的发放和管理流程如下
1. 通过云平台API或UI界面选择裸金属规格创建裸金属实例
2. 云平台conductor组件初始化裸金属实例化流程调用DPU上运行的管理模块完成裸金属实例的配置
3. 云平台创建虚拟网口在DPU上实现虚拟网口后端的初始化裸金属在启动之后通过标准virtio驱动扫描到网口设备同时将网口信息同步给SDN控制器SDN控制器将流表下发到裸金属节点DPU上的vSwitch上实现裸金属与其他实例的网络互通
4. 云平台创建云盘设备通过iSCSI等存储网络协议栈在DPU上对接远端块存储系统将远端卷设备抽象为标准SPDK bdev块设备并通过NVMe/virtio-blk等后端提供给裸金属实例作为磁盘设备。
技术发展及开源工作建议 1. 增强云平台管理组件在DPU上的部署和与DPU OS中相关驱动对接方案的研究以便不同云厂商可以更高效的将相关软件组件部署到不同厂商的DPU上
2. 探索存储模块中NVMe-oF存储网络协议栈的应用研究以提供更高性能云盘服务

5. Next Step

本文分析了算力网络的热门定义、主要能力类型、服务模式、技术领域、应用场景等。为进一步细化算力网络实现像业界提供更为具象的算力网络参考后续我们计划依托CFN WG-需求与架构子工作组进一步完成应用场景分类选择重点应用场景梳理算力网络基础功能架构并与CFN WG其他子工作组协同形成特定场景解决方案。

6. Events about CFN

算力网络相关标准组织动态

  • 2019年2月互联网研究任务组IRTF在COIN(Computing In Network) 研究组中开始孵化CFN致力于研究计算和网络的深度融合改善网络、应用程序性能和用户体验。
  • 2019年8月宽带论坛BBF启动 了“Metro Computing NetworkTR-466主要研究算力网络在城域网中的场景和需求。
  • 2019年11月国际互联网工程任务组IETF发布Computing First Network系列个人文稿主要研究算力路由协议。中国移动在 IETF 牵头推进需求、架构、试验等核心文稿和技术共同举办了算力感知网络关键技术计算优先网络CFN的Side meeting。
  • 2019年开始国际电联电信标准化部门ITU-T分别在SG2组立项 M.rcpnm: Requirements for Computing Power Network Management主要研究算力网络运营管理功能架构及功能需求包括配置管理、故障管理和性能管理在SG11 组启动了 Q.CPN 标准(算力网络的信令需求)与 Q.BNG-INC 标准算力网络边界网关的信令要求的制定等工作在SG13 组从算力网络架构、算力感知网络相关技术等方面推进了 Y.CPN-arch 标准、Y.CAN 系列标准的制定工作。
  • 2019年8月中国通信标准化协会CCSA与国内中国移动中国电信中国联通三大运营商联合牵头在TC3立项 “算力网络需求与架构”研究项目,输出了一列的技术要求和研究课题(算力网络-总体技术要求、算力网络-控制器技术要求、算力网络-交易平台技术要求、算力网络-标识解析技术要求、算力网络-路由协议要求、算力网络需求与架构、算力网络开放能力研究)。
  • 2020年5月欧洲电信标准协会ETSI在在NFV ISG完成NFV support for network function connectivity extensions立项NFV-EVE020以内容转发网络CFN为基础研究 NFV的计算和网络集成相结合的网络功能连接扩展方案。
  • 2022年7月中国移动研究院在ITU-T SG13完成“云计算-算力资源抽象功能需求”标准立项,面向算力网络背景下的算力资源异构化、多样性的特点,提出算力资源抽象概念,并重点关注算力资源抽象的特征、功能需求和端到端业务场景。
  • 2023年2月中国移动研究院在CCSA完成“面向云计算的算力资源抽象模型总体要求”标准立项重点研究算力抽象的统一架构要求、算力抽象编程模型及范式要求、算力抽象模型要求、运行时要求、跨架构编译要求、与算力管理平台协同要求等。
  • 2023年3月中国移动推动“算力路由”工作组在国际互联网标准化组织IETF成立后续将负责算力路由相关标准的立项和制定。

算力网络相关产业进展

  • 2021年6月IMT-2030(6G)推进组发布《6G总体愿景与潜在关键技术》白皮书将算力感知网络列为6G十大潜在关键技术之一。
  • 2019年9月边缘计算产业联盟Edge Computing Consortium与网络5.0联盟联合成立,将算力网络被视为未来网络发展重要方向。
  • 2022年6月中国信通院成立算力服务方阵加速算力服务核心技术创新发展构建算力服务新业态。
  • 2022年6月云计算标准与开源推进委员会开始进行可信算力标准体系研究先后输出算力服务通用场景与总体框架以及可信算力服务-算力调度通用技术能力要求。

算力网络相关开源进展

  • 2022年8月OpenInfra Days China在中国召开中国移动主导的算力网络工作组在OIF开放基础设施基金会宣布成立线上分享算力网络相关技术开源领域的发展并讨论算力网络工作组后续的工作发展规划。

算力网络相关白皮书

  • 2019年11月中国移动发布《算力感知网络技术白皮书》首次向业界介绍了算力感知网络CAN, Computing-aware Networking的背景与需求、体系架构、关键技术、部署应用场景及关键技术验证等内容。
  • 2019 年 11 月,中国联通发布《算力网络白皮书》,阐述了未来算力业务形态、平台经营方式、网络使能技术等方面的观点。
  • 2020 年 10 月,中国联通发布《算力网络架构与技术体系白皮书》,结合新基建等最新政策导向与 IPv6+时代可能的商业模式创新,阐述了中国联通算力网络架构设计、功能模型、层间接口与各功能层的关键技术,并结合若干场景对算力网络的应用和部署方式进行了展望。
  • 2021年3月中国联通发布《异构算力统一标识与服务白皮书》在算力资源管理、业务建模和服务能力构建等领域为行业发展进行阐述。
  • 2021年3月中国联通发布《云网融合向算网一体技术演进白皮书》在云网融合向算网一体演进的技术路线关键能力等方面为行业发展进行阐述旨在推动网络与计算深度融合构建面向未来的算网一体化服务新格局。
  • 2021年3月中国联通发布《cube-net3.0 网络创新体系白皮书》,描述了可支撑包括算力网络在内的新一代数字基础设施的架构、技术体系、技术特征和服务特征。
  • 2021年11月中国移动发布《算力网络白皮书》对算力网络的产生背景、核心理念、应用场景、发展路径以及技术创新进行系统阐述提出“网络无所不达、算力无所不在智能无处不及”的愿景。
  • 2021年11月中国移动发布《算力感知网络CAN技术白皮书》2021版主要研究算力感知网络的架构、关键技术以及所面临的挑战在算力感知网络体系架构、算力度量、算力感知、算 力路由、算力管理等方面进行探索。
  • 2021年11月中国移动发布《NGOAN智能光接入网白皮书》主要阐述了对下一代光接入网发展的思考与最新成果即可作为算力网络基础底座的千兆光网络可用于构建“连接+算力+能力”的新型信息服务体系并提供可承诺的接入连接服务
  • 2021年12月中国联通发布《中国联通算力网络实践案例》详细描述了联通省公司对算力网络资源感知、算力网络切片、算力网络云网安一体服务、全光算力网络等技术方案在具体场景中的应用及效果。
  • 2022年5月中国联通发布《算力网络可编程服务白皮书》书在算力网络可编程服务理念SIDaaS 技术体系,平台设计及实现机制等方面为行业发展进行阐述,旨在推动算力、服务和网络的统一编排与可编程调度,赋能面向未来的“大联接+大计算”数字信息基础设施发展新格局。
  • 2022年6月中国移动发布《算力网络技术白皮书》2022版基于过去的研究成果结合最新的政策、产业、标准发展情况对算力网络的十大技术发展方向进行了展望并阐述了算力网络的技术体系和技术路线。
  • 2022年8月中国移动发布《算网一体网络架构及技术体系展望白皮书》从网络架构及技术创新发展的角度提出算网一体的设计原则、定义、特征以及体系架构并以此为基础阐述了算网一体的关键技术和发展前景。
  • 2022年10月中国联通发布《算力时代的全光底座白皮书》定义了算力时代全光底座的五大关键特征并从全光城市、全光枢纽、“东数西算”三个维度分别给出了全光底座的技术演进、架构布局和应用场景创新的方向。
  • 2022年11月中国移动发布《面向智算的算力原生白皮书》面向智算领域生态竖井问题提出算力原生理念并系统性从算力原生的定义内涵、技术架构、演进路径、关键技术等方面进行了阐述以便解决大规模、泛在多样的异构计算资源生态隔离问题并实现应用跨架构无感迁移执行。
  • 2022年12月中国移动发布《算网大脑白皮书》将算网大脑定位为整个算力网络体系的“智能中枢”是算力网络编排管理层的核心是算网共生发展的关键系统。中国移动提出以达成算网大脑“多样算力可泛在部署、极致网络可智能调度、算网资源可全局优化、算网能力可一体供给”为愿景分阶段构筑融数注智的算网大脑构建完整的算网大脑生态体系。

7. Reference

  1. 《中国算力发展指数白皮书》
  2. 《中国算力发展指数白皮书2022年》
  3. 《高性能计算云白皮书定稿》
  4. 《中国联通算力网络白皮书》
  5. 《算力网络架构与技术体系白皮书》
  6. 《算力网络技术白皮书》
  7. https://blog.csdn.net/ustc_dylan/article/details/121785732