云运维是什么
ODS View IT大数据运维平台,基于大数据技术、智能分析和可视化展示为基础开发的一套解决海量运维数据分析难题的系统平台。
通过采取主动的运维分析和实时态势感知,有效整合网络、服务器、业务应用、机房基础环境、日志、资产等方方面面的管理。
一个管理平台监测整体IT系统,用于解决企业IT运维工作所面临的全方面需求。
ODS View IT大数据运维平台,基于大数据技术、智能分析和可视化展示为基础开发的一套解决海量运维数据分析难题的系统平台。
通过采取主动的运维分析和实时态势感知,有效整合网络、服务器、业务应用、机房基础环境、日志、资产等方方面面的管理。
一个管理平台监测整体IT系统,用于解决企业IT运维工作所面临的全方面需求。
能够提供对使用中的设备和服务质量进行实时监测,并且提供动态阈值的告警,实时的准确的告警,减少延迟和误报。
需要有统一的监控平台,可以把各类业务相应资源视图抓取出来,便于我们对整体资源有一个合理的预估和分配,并从整体角度评估各个业务部门对资源的使用情况。
把很多不同的监控子系统集成起来,借助于各种工具,采集数据之后自动合成一个报表统一展现出来,方便管理
第一个是生命周期管理,以前在一个部署过程中,通常是开发人员写一个是需求文档给运维接口人,他会协调各资源管理员分配资源形成部署方案,最后将这个部署方案通过人工构建变更的方式实施。这里面有两个问题,一是传递过程中可能偏差,二是周期比较长,我们希望借助我们的云运维平台实现参数级别的电子化传递,以及由平台进行一个自动化的部署,并在部署过程中自动进行各项规范标准的实施。
第二个场景是持续部署管理,传统部署方式我们会遇到一些问题,包括:应用版本通过版本服务器多次人工传递,各应用的配置、维护脚本没有统一标准;通过表格人工维护各环境的参数差异,不同环境人工修改参数;应用的安装过程视变更人员经验,异常告警没有统一标准,回退方式不统一等。为此,我们做了一个持续发布的标准,而且将这些标准借助这个平台可以实施,包括:统一版本传递路线,版本标准化;构建生产、测试、研发环境配置差异库,平台根据所在环境自动生存对应参数;标准化应用部署过程,多节点安装顺序自由编排,按照编排顺序进行安装;标准异常告警;故障时按照编排顺序逆向回退。
第三个场景是我们的运行环境管理,包括资源类的CPU、内存、IP、端口、访问关系等,以及我们运维人员关注的,定时任务、备份策略、自启动项目等。我们通过云运维平台对运行环境进行管理,替代原有excel表格,并进行自动化设置。
第四个场景是是常用运维工具集成,包括我们常用的应用重启、健康检查、隔离、恢复工具,服务器的一些物理测试和自动装机后自动接入OpenStack或者其它资源管理平台的自动对接,网络设备的健康检查,还有一些定期的安全检查,我们把这些工具集成在我们的云运维平台上。
我们在云运维平台里面,借助我们之前提到的各种产品管理工具,容量管理和高可用管理,我们放在一个视图的画像里面,根据变迁维护历史以及应用的容量、高可用信息,还可以计算出这个应用他的运维方面的成熟度。