北京举办天云软件技术开放日,共探企业级云计算发展新貌

2025-07-06
来源:万象资讯

北京,2017年5月2日——信息技术的进步既迅速又充满多样性。在最近几年,移动互联网、云计算、大数据、物联网、人工智能以及区块链等新一代计算技术实现了飞速发展,而在各个领域,新的细分技术也在不断涌现。新技术往往建立在云计算平台之上,追溯云计算的演进历程,我们发现其发展历程同样充满了变革与革新,诸如IaaS、PaaS、SaaS、CaaS等概念层出不穷,云管理、弹性计算、高性能计算等技术不断涌现,企业级云计算领域正呈现出一片繁荣景象。

近期,在北京联合创业办公社成功举办了天云软件技术开放日,活动吸引了天云软件、阿里云、亚信等知名企业级云系统的专业人士,以及众多对云计算感兴趣的开发者共同参与。他们共同聚焦于云系统技术及其应用,从基础设施即服务(IaaS)到容器即服务(CaaS),再到云管理领域,以及高性能计算等多个方面,展开了一场深入而广泛的交流与讨论。

世界的变化,由技术推动

张福波博士,天云软件的CEO,在致辞伊始便提到,作为一名资深的IT行业从业者,他亲身经历了海龙大厦由繁忙喧嚣变为寂静凄凉的过程,这一变迁映射出世界的飞速发展,而科技进步亦步亦趋。从云计算的兴起,到大数据的广泛应用,再到人工智能和机器学习的迅猛发展,新技术层出不穷。在上世纪80年代,人工智能这一概念便已出现,但遗憾的是,它并未能实现大规模的进步,这主要是因为计算能力的不足限制了其发展。

分布式计算技术的进步为人工智能的当前成就奠定了基础。故而,从技术层面分析,分布式计算堪称信息技术进步的核心,正是有了分布式计算,云计算、大数据以及人工智能等领域才得以拓展和优化。

尽管涉及云计算、大数据、人工智能以及机器学习等领域,其核心宗旨都是通过技术创新促进事物进步,以新方法解决现有问题,天云软件正是基于这一理念而创立的。天云软件坚信,底层技术的进步迅猛,对于初创企业而言,贴近客户的具体应用场景至关重要。他们坚持以解决客户实际问题为出发点,自2011年踏入云计算领域以来,天云软件不仅致力于技术的领先性,更注重技术的实际应用和推广。

以人工智能为例,它并非独立存在的一项应用,其更重要的角色在于充当催化剂或提升效率的工具。因此,人工智能必须与运维紧密融合,例如,自动驾驶技术便是依托人工智能的机器学习功能得以实现的。

人工智能的进步主要依赖于计算和算法两大要素。在上世纪八十年代,由于计算能力的限制,其发展进程较为缓慢。然而,随着计算基础的日益完善,人工智能如今正迎来迅猛的发展势头。目前,人工智能领域的一个重要分支不再依赖于专家经验,而是转向了基于现象和行为的模式。这种基于行为的人工智能发展,显著降低了技术解决问题的难度,因为机器能够通过自身学习来掌握行为模式。在接下来的数年,人工智能将迎来广阔的应用领域,同时,伴随着人工智能技术的进步,对高性能计算和应用的需求也将不断提升至新的高度。

天云软件CEO张福波博士开场白

企业级云管理平台的架构实现与落地实践、趋势分析

马俊,天云软件的产品总监,以“企业级云管理平台的架构实现与落地实践、趋势分析”为演讲主题,对云管理平台的架构实现、落地实践以及未来发展趋势进行了深入剖析。他详细阐述,云管理平台可划分为三个层级:首先是云管理平台层,其次是云计算技术架构层,最后是虚拟化层。

虚拟化层主要负责提供虚拟化服务,包括对计算、网络和存储资源进行虚拟化支持和相应的管理;云计算技术架构层依托虚拟化层的特性,构建了包括计算、存储和网络资源在内的技术架构;云管理平台层则负责提供业务支持及异构混合云的管理功能,对虚拟化层和技术架构层进行统一的管理与协调。

当前,随着云计算技术架构层的演变,云管理平台,即CMP,正经历着显著的变革。

天云软件的CMP平台,它既开放又中立,属于企业级云管理范畴。该平台能够与企业传统的IT资源及云资源池实现对接,同时向上级系统管理员提供一站式IT资源管理功能,确保能够向最终用户高效交付云服务。

CMP的核心理念在于CMDB,着重于异构性管理。在此CMDB中,调度的地位尤为关键,它同样是企业客户实现资源高效管理的核心所在。之所以采取这种做法,关键在于现时企业客户的具体需求。企业期望云管理平台能够对多个数据中心资源实施集中化管理,包括:集中式的资源池管理、集中化的监控界面、集中式的资源配置管理、集中化的资源模板管理、集中式的资源申请、审批与开通流程管理,以及集中化的资源实例管理。

CMP是一个全面开放的系统,它不仅提供了面向外部的用户管理接口和资源管理接口,还涵盖了监控与告警数据的收集。用户能够利用这些API和数据进行界面UI的二次开发,这使得与OA系统、网络管理系统以及PaaS平台的集成变得异常便捷。

天云软件云管理平台架构_云计算技术发展趋势_云计算技术难不难学

接下来,CMP将拓展至四个不同领域。首先,它将实施服务解耦策略,也就是进行微服务化改革,将大型服务拆解为若干个基础服务,这些服务之间保持平行关系,可以独立部署,并支持分布式架构,旨在实现更高效的集成、开发测试以及上线流程。其次,CMP将提供基于机器学习的业务系统扩容建议,通过对CMP系统数据的深入分析,帮助客户实现更优的投资回报。第三,针对机器学习的资源池进行优化,旨在提升客户虚拟化资源池的利用率至较高水平。第四,实施双模IT管理模式,对IaaS和PaaS进行统一管理,构建一个综合性的IT管理平台。

目前,CMP已在运营商的公有云领域得到广泛的应用,为政企客户提供服务;同时,它也应用于运营商的私有云,对B域、O域、M域的IT资源进行云化升级。此外,CMP还成功应用于电子政务、教育、航空制造、金融、园区以及动漫渲染等多个领域的云服务。中国移动和中国联通等公司都是CMP的服务对象,其中规模较大的为联通沃云,截至去年年底,其CPU数量已突破25万台。

基于打造轻量级PaaS平台

天云软件首席技术官牛继宾在PaaS领域进行了深入探讨,阐述了如何利用K8S技术构建一个轻量级的PaaS平台。目前,业界对于PaaS的认知存在诸多差异,但不论具体方向如何,PaaS的核心定位始终是构建一个环境,以便开发者能够高效地进行软件开发和应用部署,并支持应用实现弹性扩展或灵活配置。因此,他将构建轻量级PaaS平台叫做ECP,即弹性计算平台。

ECP的四大建设目标如下:首先,确保系统的高可用性,借助PaaS平台,用户无需再关注IaaS资源,只需关注平台在技术架构、平台服务和物理资源三个方面能否提升系统的稳定性和可靠性;其次,实现资源共享与动态调度,突破资源静态分配的局限,支持服务的灵活伸缩,提升资源使用效率,例如在淘宝双十一期间,更多是构建消息中间件和应用软件的弹性中间件环境,以支持应用的弹性扩展;第三,推动研发、测试与运维的一体化,改变开发、测试、运维分离的现状,简化应用开发、部署和运维的复杂度;最后,实现自动化运维,通过将事件与流程相连接,当问题发生时自动启动处理流程,从而提升运维效率。

围绕ECP的建设宗旨,我们为何选择构建一个轻量级的平台?这实际上是因为它提供了一套灵活的应用发布与运行框架。具体来说,一个应用本质上是由负载均衡与后端若干计算节点组成,其主要功能在于确保应用能够迅速上线,同时实现服务的快速定位。该体系结构完整,架构设计统一,开发使用的语言也较为一致且全面,目前国内众多以容器技术为基础构建的轻量级PaaS服务提供商,普遍已转向使用该体系,这一现象也充分体现了其高度的可用性。

天云软件为何要基于现有发现应用和服务的基础上,再打造一个全新的平台呢?牛继宾解释道,首要原因是其用户界面不够友好,与国内用户的操作习惯不太相符。再者,在使用过程中,用户能够通过查看挂载的pod数量来获取信息,但若尝试从pod逆向查找,却往往无法找到。此外,PAAS作为一种云服务,需要支持多租户,而目前对租户的支持尚不尽如人意。其四是基础设施的管理、日志与监控等,也不是那么友好。

依托镜像仓库、存储集群等核心组件,结合Etcd等工具,搭建基础服务;同时在外围搭建主机管理、网络管理、存储管理、应用管理、服务管理、健康管理、日志管理、用户管理、UI、镜像管理、CI/CD等服务;接着对服务进行镜像封装,并以Pod形式整合;只需从UI提取相关API,便能构建出一套PaaS平台,用户可利用该平台所提供的能力进行构建。

构建企业及互联网架构,大平台+轻架构+小应用

在应用层领域,亚信软件的高级架构师李春林以“如何打造企业及互联网架构,以及实现大平台、轻架构和小应用的完美结合,以及能力集成与开放平台的构建思路”为演讲主题,向与会者详细介绍了亚信AIF在应用层面的理念与具体实践。

亚信AIF构成的是一个基于微服务模式的平台。众所周知,架构设计的根本目的是为了更有效地应对需求上的变化。目前,我们的应用架构已经从MVC架构、RPC架构、SOA架构逐步过渡到了微服务架构。MVC架构的引入,旨在解决前端与后端、界面设计、控制逻辑以及业务逻辑之间的分层问题。业务规模的增长和模块化的发展趋势下,RPC架构承担起模块间跨进程通信的职责,有效简化了业务对通信细节的关注,然而,它并不涉及服务治理,如服务的自动发现、发布和运维等方面。相对而言,SOA架构更侧重于标准化服务的供给,支持企业内部资产的复用以及异构系统的集成,并且具备了完善的服务治理能力。SOA架构对于传统企业而言,主要致力于解决不同系统之间的互联互通问题,并实现粗粒度的标准化;而在互联网行业,它则提供了一套高效的服务化架构,以支撑应用的快速开发和持续迭代。

亚信AIF所采用的微服务架构特别强调服务的构建方法,它将服务拆分,细化为微小的应用单元。这些应用单元可以独立部署,并拥有独立的生命周期管理。通过这种方式,实现了服务之间的松耦合,确保了模块职责的单一性,并采用了轻量级的通讯机制。在内部,它支持高性能的RPC通信;而在外部,则采用了HTTP风格。这些特点共同促进了运维体系的强化,包括服务治理、监控中心、日志中心和配置中心等方面的优化。

微服务架构实际上打破了系统构建过程中的“无形壁垒”。在过去的集群模式中,服务规模较大,往往需要调用多个服务器的资源,且资源分配是静态的。然而,AIF模式实现了多个服务对一组服务器资源的细粒度共享,并且保持了应用框架的一致性,通过技术平台对应用进行有效管理,推动了应用软件的标准化进程。

亚信AIF坚持“大型平台、小型架构、轻量级应用”的理念,致力于组件的解耦与开放性,具体而言,AIF具备以下八大显著特性:

应用标准化:统一技术架构,促进应用标准化;

服务透明度提升:确保服务接入的标准化,使服务变得清晰可见,便于管理和控制,并促进对服务的持续优化与监管。

采用技术解耦策略,通过将开源软件进行封装处理,可以有效降低开发难度及总体拥有成本,进而实现应用与技术组件之间的分离。

云计算技术难不难学_天云软件云管理平台架构_云计算技术发展趋势

实现应用与数据分离机制,旨在隔离底层数据存储对应用流程的干扰,确保数据访问过程对用户而言保持透明,用户无需关注如何在不同数据分区间进行查询、如何均衡各分区负载、以及如何接入不同类型的数据库等复杂问题。

运维可视化:通过多角度的实时监控,对系统调用链路中的各个环节进行细致观察,涉及性能表现和健康状况等多个方面,并据此对系统实施即时调整。

运维智能化:熔断机制,及时自动隔离集群中隐患节点;

亿级信息处理能力:该消息处理架构能够高效地执行异步服务间的协作,并具备处理亿量级信息的能力。

应用云化:协同DCOS平台实现服务自动弹性伸缩。

亚信AIF未来的发展路径将聚焦于打造基础平台,这一目标涵盖了从基础到高级的各个层面,倡导开放性与合作精神,鼓励产业链上下游各方齐心协力,共同构筑一个可靠、稳固且易于维护的一体化云化技术大平台。

深度学习简介及支撑深度学习的解决方案

正如张福波博士所阐述,天云软件是一家专注于应用和实现技术落地的云计算服务提供商,天云软件的首席技术官牛继宾在介绍完PaaS之后,又从应用层面出发,深入探讨了深度学习的概述以及支持深度学习的解决方案。

深度学习的理论基础源自对人工神经网络的研究。这种学习方式中,多层感知器,尤其是那些包含多个隐层的,构成了深度学习的基本结构。它通过整合低层特征,创造出更为抽象的高层表示,从而识别出数据的分布式特征表示。

深度学习所采用的模型是深层神经网络,简称DNN,这种神经网络结构中包含多个隐藏层,亦称作隐含层。在深度学习过程中,模型通过隐藏层的作用,以特征组合的形式,逐层将原始输入数据转化为浅层特征、中层特征、高层特征,直至达到最终的任务目标。

人工智能算法的复杂训练和计算往往需要处理数亿个参数,这些参数的运算需求巨大,计算资源不可或缺。在深度学习这一领域,GPU计算技术已经占据了主导地位。采用GPU进行运算的一大优势在于,当前主流的GPU不仅具备卓越的计算性能,而且内存带宽也十分宽广,这两者在性能和带宽方面都显著超越了同代的CPU。此外,GPU在并行计算方面的能力同样是一大亮点。

GPU的并行计算机制涵盖了单CPU并行计算方法,以及涉及数据并行的多GPU并行计算和模型并行的多GPU并行计算,此外还包括GPU集群的并行计算模式。

单CPU并行计算涉及对每次训练数据,通过调用多个GPU内核进行计算的过程。在此过程中,权重W值始终驻留在GPU内存之中,直至所有训练数据计算完成,随后才被传回至系统内存。

在多GPU并行计算中,数据并行涉及将训练数据分割成若干部分,并利用多个模型实例对这些数据片段进行并行训练。然而,这种方法存在不足,特别是当模型规模较大时,GPU的内存容量可能不足以容纳所有数据,进而导致计算无法顺利进行。

模型并行在多GPU并行计算中涉及将模型分割成若干部分,这些部分由不同的训练单元分别掌管,并协同完成训练任务。在此过程中,若一个神经元的输入依赖于另一个训练单元中神经元的输出,便会产生通信成本。这种方法的不足之处在于,它要求更频繁的通信,从而加剧了通信压力,并且实现起来较为复杂。

GPU集群在并行处理方面,是对多种并行策略的进一步拓展。在节点之间,通过通信机制实现数据交互,具体而言,节点间的GPU利用RMDA进行通信;而在单个节点内部,多个GPU之间则采用特定的通信方式相互协作。

深度学习集群,涵盖软硬件两方面,往往是企业内部的公共资源,众多项目组均需依赖。若采用先前所述的部署方法,则会引发以下三个主要问题:

云计算技术难不难学_云计算技术发展趋势_天云软件云管理平台架构

项目组必须遵循统一的深度学习框架及其特定版本,否则,由不同项目组编写的训练代码可能无法正常运行。若需每次根据特定项目组的需求重新部署框架,将导致工作量大增,同时耗费大量时间和精力。

在二,当某个项目组正在使用集群资源时,其他项目组常常不得不等待,即便集群的资源利用率并不高。

第三,若服务器集群中的任一硬件设备发生故障,此问题将不可避免地导致整个集群无法正常运作。

因此,针对分布式机器学习集群的调度问题,共享调度策略应运而生。其中,一种实施共享调度的方法是依托容器技术进行调度,这种方法不仅能够支持应用的部署、维护以及扩展,还能便捷地管理多台机器上运行的容器化应用程序。其核心功能包括:

1) 使用对应用程序包装()、实例化()、运行(run)。

2) 以集群的方式运行、管理跨机器的容器。

3) 解决跨机器容器之间的通讯问题。

4) 的自我修复机制使得容器集群总是运行在用户期望的状态。

二是借助MPI作业调度机制。MPI,即高性能计算(HPC)领域普遍采用的编程接口,旨在实现大规模问题的并行执行。通常,需借助集群作业调度管理软件来启动并监控在集群主机上运行的MPI任务。此方法的核心目的是确保集群作业调度管理软件能够对构成MPI作业的各个进程进行追踪与管控。天云软件等一些集群作业调度管理工具能够监控MPI任务的CPU、内存以及GPU的运用情况。我们将深度学习的每一次计算视作MPI作业,并借助天云软件的作业调度管理功能,对集群资源进行集中管理和分配。在此过程中,无论是性能还是内存带宽,都显著超越了同代CPU。此外,GPU在并行计算方面的优势同样不容小觑。

这两种调度策略的优势在于,它们允许共享集群资源,支持多租户、多用户以及不同任务框架的并行处理,且在集群出现故障时,能够有效排除因作业而引发的特定任务问题。

实际上,人工智能的整个产业链涵盖了技术底层、基础应用以及解决方案整合等层面。在我国,人工智能的发展主要聚焦于技术底层,涵盖了集群计算、深度学习架构、中央处理器、图形处理器、神经网络处理器以及路径规划等多项技术能力。而天云软件则专注于集群计算领域,并在该领域实现了一定的技术突破。

从人工智能发展的根本层面分析,算法、数据以及计算平台构成了其爆发的三大支柱,只有当这三者均达到一定的阈值,人工智能技术方能实现真正的进步。在天云软件的领域内,其关注的焦点集中在集群技术以及高性能计算平台,这些技术为深度学习的广泛应用提供了强有力的支撑。

现场火爆提问及互动环节

“天云软件技术开放日”是公司对外展示其技术实力、分享技术经验、探讨技术前沿的盛会,同时也是天云软件与用户、产业链合作伙伴以及行业同仁之间深入交流、加深相互理解、相互学习、加强合作的宝贵平台。

张福波强调,天云软件是一家专注于技术的企业,他们期望通过知识共享,让众多技术人员能够相互依靠、共同成长,进而促进整个行业的繁荣进步。

分享