曙光EasyOP在线运维平台正式上线

来源:企鹅电竞比赛    发布时间:2024-01-31 03:07:41 点击:1次

  4月21日,经历6个月的试运营之后,中科曙光针对高性能计算集群推出的SaaS级专业化在线平台EasyOP(Easy Operation)正式上线月,EasyOP在全国高性能计算学术年会上亮相并宣布试运营。试运营期间,累计接入来自20组高性能计算(HPC)集群的超过7800个节点,应用涵盖计算机辅助教育(CAE)、气象、海洋、物理、生物、材料及互联网等领域,对所有接入集群资产182项指标做全面监控。

  曙光HPC研发部经理张晋锋介绍说,半年来,全部集群共自动触发约2900条通知信息,其中2281条是因计算节点主要部件温度上升触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机,“从侧面反映了曙光集群系统的高可靠性”。

  “EasyOP就是采用互联网+的模式,实现7×24小时对高性能计算机的运维和监控,通过对监控数据的分析,察觉缺陷和故障并通知运维人员,用户可根据自身的需求通过EasyOP平台或电话、微信服务号等方式联系曙光技术团队解决故障。”张晋锋说,该平台还提供对高性能计算机的调优、在线优化。

  国内大多数HPC并没有正真获得妥善运维。中国软件行业协会数学软件分会常务副秘书长姚继锋说,限于管理制度不完善、专业技术人员短缺等因素,目前大多数HPC系统并没能因运维管理到位而达到“好用”的水平,“可能只有1%”。他认为曙光EasyOP具有巨大的发挥空间。而谈到与第三方在线运维提供商相比较,他更倾向于类似曙光的HPC生产商的运维服务,“让专业的人做专业的事”。

  中科院物理所研究员徐力方坦言是EasyOP的受益者。由于要具体负责该所相关HPC设备的管理和维护,他“像个保姆一样一年到头被拴得紧紧的”,节假日和周末都要为机器操心,而且“一个人根本管不过来”,机器“生了病还得再找医生”。

  “自从接入EasyOP,我才真切感受到什么叫解放。”徐力方说,他上个月去美国参加美国物理学年会,都能通过手机第一时间掌握机房的情况。“现在只需要零点几个我就够了。”

  “我们坚持基础运维服务免费,希望能给用户更好的提供更多的增值服务。”曙光高性能产品事业部总经理曹振南在回答《中国科学报》记者关于运维服务的盈利模式的提问时说,EasyOP的目标不单单是为用户做好运维,更重要的是“打造HPC的生态圈”给客户创造的价值越多,也代表着给曙光带来更多的价值。

上一篇:思特奇5G网络智能运维渠道支撑各职业5G专网建造和数字化转型
下一篇:瀛云科技:以实力铸就光辉引领安全运维办理渠道新篇章