来APMCon2017看技术大咖如何演绎运维智能化

  随着互联网产品规模的爆发式增长,大型分布式系统的监控复杂性也日益显现。工程师们发现:监控遗漏导致宕机的黑天鹅现象频繁发生;出现...

  随着互联网产品规模的爆发式增长,大型分布式系统的监控复杂性也日益显现。工程师们发现:监控遗漏导致宕机的黑天鹅现象频繁发生;出现故障时很难从海量监控指标中迅速找到故障根因;报警风暴极大地干扰了工程师定位问题的速度;故障恢复速度基本依赖于工程师的操作速度。因此,工程师们尝试着建立智能运维监控系统,希望用智能化的手段去帮助工程师解决这些问题。

  智能化运维是用机器来代替运维人员,在最少人工干预下,结合运用脚本与第三方工具,保证业务7*24小时高效稳定运行,这也是运维工作的终极目标。智能化运维要做到事前预警、事中恢复和事后存档,实际上有大量的工作要完成。智能化运维不仅可以将运维人员从繁琐的工作中解放出来,而且还大大提升了运维工作的效率,是2016年以来运维发展的主要方向。

\

  想学习关于智能运维的最前沿技术分享吗?来APMCon吧。

  APMCon是由听云、极客邦科技与InfoQ联合主办的全球高水准APM技术盛会,聚焦当前最为关键的移动端、Web端和Server端的性能监控和管理技术。整个会议包含智能运维、数据库性能优化、移动性能优化、前端性能优化、业务数据实时分析和可视化、微服务与容器与CDN加速等话题。 APMCon内容源于实践并面向社区,来自国内外的演讲嘉宾依据热点话题,面向5年以上的技术团队负责人、中高级开发和运维人员、工程总监分享APM技术创新、趋势和最佳实践。

\

  联席主席:赵宇辰 销售易技术VP、首席数据科学家

  一直致力于人工智能和机器学习在企业级服务SaaS的研究、应用和创新。多年担任数据科学会议 KDD、ICDM、IJCAI、CIKM 等的program

  committee,曾任General Assembly 的首席数据科学讲师,同时在 Sumo Logic、Linkedin、eBay、IBM Watson

  Research 有相关经历,并拥有十多项美国和国际专利以及多篇最佳学术论文。

\

  廖雄杰 听云研发副总裁

    演讲主题:《微服务架构的应用性能监控》

  演讲摘要:

  当单体应用演进为微服务架构后,一方面可以有效地将各个服务解耦,提升系统的伸缩性以及开发部署的效率,但是也同时带来另一个棘手的问题,上层应用与微服务之间以及不同的微服务之间的调用关系也随之变得错综复杂,任何一个微服务出现性能问题都可能导致整个应用出问题甚至被拖垮,因此如何对微服务架构实施有效的监控成为微服务化过程中必不可少的一环,难怪有人说,“没有监控的微服务就是耍流氓”。

\

  裴丹 清华大学计算机系副教授,智能运维算法专家

    演讲主题:《智能运维中的科研问题》

  演讲摘要:

  结合我在AT&T的工作经验,以及百度、阿里、腾讯、滴滴、搜狗的合作经验,我将总结目前阻碍智能运维高速发展的核心挑战:工业界有数据、有应用,但是欠缺定义科研问题的经验和算法经验;学术界不了解智能运维的应用场景,也很难获得训练算法必需的数据;工业界与学术界的一对一交流效率低、见效慢。在这次分享中,我将提出一个新的思路。

  首先,我将系统地把运维生产环境中的应用难题分解成若干切实可行的科研问题,并公布在我们实验室即将启动的一个智能运维算法大赛网站。在这个网站上,各个企业可以为自己关心的、已经分解好的具体科研问题上传可供公开访问的脱敏数据;学术界基于公开的科研问题和数据,贡献算法,并与其他科研工作者的算法进行性能比较。就像ImageNet网站对图像识别机器学习算法的大力推进一样,我相信这个智能运维算法大赛网站也将成为智能运维算法高速发展的一个有力催化剂。

\

  王刚 泰康保险集团数据信息中心运维自动化主管

    演讲主题:《泰康保险运维自动化技术实践与前瞻》

  演讲摘要:

  作为中小金融行业,泰康在传统行业中业务方向上较早的互联网化,带来了对研发、测试、运维等更高要求,作为互联网行业巨头们的追赶者,从场景化运维开始,建设了包含监控、分析、自动化、交付四块的运维自动化平台。

  听众收获:以泰康IT的视角,介绍下泰康IT在运维自动化方面技术及架构层面的演进,产品和方向的选择思路,及未来的一些想法。

\

  龚诚 58集团技术工程平台群高级技术经理

    演讲主题:《构建立体化的监控体系——58集团监控实践》

  演讲摘要:

  监控系统是网站正常运行的守护神,是服务稳定性的重要保障,像运维和研发等人员的眼睛一样不停歇的关注着网站服务状态,发现异常时通过精准有效的告警帮助我们快速发现故障,通过相关数据展示视图帮助我们快速定位故障。通过监控系统可以将业务复杂、服务众多的网站由一个黑盒子变成一个白盒子,将运维数据进行量化和可视化,从而有针对性的对网站优化。本话题分享了58集团在监控方面如何快速的构建起立体化的监控体系。

  大纲:

  1、如何快速获得监控收益;

  2、构建立体化的监控体系;

  3、提升监控系统用户体验。

  听众收获:

  1、了解保障网站可用性面临的挑战,以及监控业务中的关键点;

  2、理解如何快速的获得监控收益,保障对异常的发现和对故障的排查;

  3、明白如何在横向和纵向两个维度构建起立体化的监控体系;

  4、懂得如何使用监控数据评估网站运维质量;

  5、熟悉如何打造用户体验较好的监控系统。

\

  安诚路 海尔全球运维中心高级主管

    演讲主题:《海尔多用户下的统一监控》

  演讲摘要:统一监控,统一自动化运维一直是企业在IT运维这块的主题之一,如何规避风险,如何及时预警,如何降低IT运维成本提升IT运维效率一直是企业追寻的目标。”统一”这二字说的容易,实际落地并不轻松。在海尔,各产业业务线众多,各产业对于自身的业务稳定性,业务可用性指标各不相同,如何实现”统一”这二字的同时满足各产业的不同需求就是这次的主题。

  APMCon 2017将在8月10-11日在北京召开

  大会门票8折阶段,输入“APMCon_0810”现折扣基础上再减99