胡然龙湖地产IT基础设施团队负责人:13年互联网运维经验与智能运维实践

2024-12-18
来源:网络整理

胡然

龙湖地产IT基础设施团队负责人

【简介】13年互联网行业IT运维管理经验。目前就职于龙湖集团,担任IT基础架构团队负责人。 2009年起负责核心业务系统的运维工作。拥有多年一线运维、架构设计、开发经验。 、自动化运维平台搭建经验。曾就职于阿里巴巴、同程旅游等一线互联网公司。精通数据库运维,熟悉网络、虚拟化、存储备份等相关知识和技能,经验丰富,是中国用户集团北京分会主席团成员、北京中国用户组TIDB TUG MVA分会,也是智能运维的践行者。

十三年的工作经历,丰富了我的羽翼,丰富了我的运维经验。从数据库管理到整个IT系统平台管理,再到能够独立对接业务,完成一体化运维平台的建设,直至带领团队指导团队成员按时、高质量完成任务。回顾从DBA转为维护经理的经历,这些年他成长了,收获也很多。

回顾自己,我在运维之初就加入了店庆业务保障团队。

其实,刚开始工作的时候,我和很多刚参加工作的年轻人一样,也很迷茫。和很多人一样,我毕业后的第一份工作并没有明确的方向。我在上班和下班后完成了领导布置的任务。一年后,我开始问自己是否应该继续这样做,所以我更认真地思考我未来的工作方向。

我真正开始接触运维工作是在2012年加入的时候。刚开始做运维的时候,我听到了一些贬低的言论。比如运维在这里“背锅”,是个“更辛苦”的程序员。职务等

运维管理什么意思_运维管理主要包括什么_运维管理

我加入运维团队的时候,正是饭客最巅峰的时候。很多80后、90后的人应该对当时的“凡客”还有印象。加入公司不久,我就加入了专门的团队,支持凡客的店庆活动,保证业务的稳定运营。基于业务的不断拓展和用户的积累,业务量快速增长。在这种场景下,各种系统问题和未知故障也随之出现。当时我们的运维团队规模并不大。一旦出现这样的问题,各环节人员都会齐心协力,迅速止损。正是在这样的团队中,我第一次明确了自己的方向。一方面,凡客用“互联网思维”做快消品营销,让我看到了运维工作本身的意义。一方面,给我印象很深的是,虽然团队很小,但我感觉团队很强大,里面的人都在不断地学习、强化自己。这项工作非常有意义。

解决许多问题并培养专业技能

你不能被称为“专家”,可能是因为你解决了很多问题,而且你周围都是解决能力很强的人,所以你会强迫自己去做。

因为刚加入时我的经验很少,所以我和当时的主管一起解决问题。后来遇到一些问题,我就会尝试自己解决,并在网上查找一些资料进行研究。那时正是凡客的巅峰。由于订单量较大,数据库遇到了很多问题。就是在那个时期,我们接触到的病例特别多。记得那时候,我会研究一个问题到凌晨2、3点。在这个过程中,我也积累了很多技术经验。

当时运维整体建设还不是很完善。我们通常通过脚本来实现批量管理和维护。正是在这段时间,我也积累了一些脚本编码能力,并快速成长为一名合格的运维DBA人员。 。

从运维专家到管理人员转型的必备技能

一个专业的运维人员应该具备多种能力。从技术工作的角度来说,首先要深入到自己擅长的方向。你必须考虑这方面的知识深度,了解其内在原理。只有理解了原理,才能在问题出现时快速想到解决办法并解决。采取行动。从闭环思维的角度来看,遇到故障时,我们不仅要关注如何快速解决问题,还要思考问题的本质,找出问题的原因,同时确保将来如何避免同样的问题。第二次出现需要闭环思考的能力。

说到来龙湖的管理经验,这些管理经验都是我在艺龙五年里不断学习和积累的。作为团队负责人,我始终关注稳定性、成本、效率、赋权的目标。根据这些目标,我将制定有针对性的工作计划,并与大家一起努力实现。同时,在整体的运维工作中,我认为技术运营体系的思考是不可或缺的。这里我最想说的是,真正落实要求,从运维建设标准化做起。建立标准化很容易。但它要求每个人都遵守。这里我们要推动它的实施,让大家都遵守。因此,我们需要将标准化固化到平台中,让大家通过平台工具来实施,为后续的效率提升等打下坚实的基础。

运维管理_运维管理什么意思_运维管理主要包括什么

有了平台,运维经理需要考虑的是线上数据的执行和分析。可以通过我们创建的平台和工具来分析在线数据。通过容量评估、在线性能数据分析、系统运行一段时间的图表和曲线,我们可以快速发现系统未来会出现的问题。发现问题不是根本。重要的是我们在流程中进行改进,推动业务改造自己的系统,完善自己的平台来帮助业务发现更多的问题,同时作为运维管理者要解决不同的角色以及团队之前的协作问题确保我们能够真正落实执行。

角色的变化带来格局的变化

我在做执行者的时候,遇到了很多线上棘手的问题,比如缓存的数据和数据库中的数据不一致,如何在几分钟之内把一个更大的数据库切换到64分片的数据库,然后比如在性能优化方面,如何提高复杂SQL的执行效率等,往往是在执行器层面解决的。

带领团队之后,我们要考虑全局的问题。来到龙湖后,我带领团队完成了运维系统的建设,搭建并完善了基础数据源系统CMDB,保证了基础资源数据的准确性。基于资源的闭环促进流程系统的变革,实现资源入口和闭环生命周期的统一。同时,针对各类中间件、数据库等开发了标准化包,在资源数据完善的基础上,建立了各类资源的监控指标。标准化实施后,我带领团队实现了自动化闭环工具构建。我们目前也在尝试构建容器化,这也是基础设施团队今年的重点任务之一。主要规划包括前期研究、建立规则、动态扩缩容、监控的标签等,我也对这些提出了一些自己的想法,比如如何保证原有业务顺利迁移到容器上,如何协调发布调整,容器接入后的资源管理,如何监控容器集群等等,如果将来怎么办?如果你有兴趣,我也给你讲讲容器化。

不忘初心,尽职尽责

“技术专家”肯定是不准确的。 “专家”这个词有很多含义,并不是每个运维人员都能做到的。然而,做一个能解决问题的人,其实才是职场中最重要的。比如说,我觉得我现在的技术水平可能更像是一个三甲医院的主任医师,处理了足够多的病例,转化为以后解决问题的能力。

从执行者到管理者,我认为管理者应该更加关注团体中每个学生的中期或长期发展。作为管理者,你应该与组内的学生一起制定发展计划,以确保学生在一定时间内有所收获并长期取得长足进步。作为新管理者,一定要把做事、解决问题变成以人为中心,团队才能持续输出。在人才建设方面,要有储备人才的理念,不要单独设立岗位,避免因人员离职而不堪重负。另外,还有一个整体的思维,因为大多数运维管理人员都是从技术层面一点点成长起来的,尝试自己解决任何技术问题往往会出现错误。他们必须学会授权和分配,同时必须向整个团队学习。站在全局的角度看问题,统筹全局。

分享