APM应用性能监控解决方案
精品文档---下载后可任意编辑 现状与需求分析随着分布式应用、云计算的不断深化进展,业务系统的逻辑结构正变得越来越复杂,应用已经演变成系列服务的形式,运行在不同平台上。应用的复杂性和灵活性加大了运维的难度,如何保障IT应用系统能够稳定、高效率的运行问题越来越受到了用户重视。 传统的IT监控解决方案主要关注资源监测、资源协调和纠错,但由于这种面对网络、主机、数据库、应用软件的平台级监控系统都是孤立、单独的监控与管理,通常都无法识别和解决应用性能问题的根源。我们需要一种新的技术手段,真实感知最终用户体验,主动发现应用性能问题,快速定位到问题组件,最终实现以预防为主的主动式应用性能监控。 解决方案概述Broadview APM基于网络镜像数据包,是一种有效的非侵入式解决方案,适用于企业内部业务系统,以核心业务系统和关键交易为主要监控目标,可对业务系统及关键交易性能进行深化分析,是一款基于用户体验的主动式应用性能管理方案。 图1 整体解决方案 Broadview APM为IT人员提供了IT基础架构之上观测应用系统的逻辑结构、负载量、健康度和可用性的方法,以业务拓扑图、时序图的形式可视化展现各服务组件、环节的运行状态。通过Broadview APM,IT人员可以对要观察的IT基础架构有一个总体了解,从而可以更快地响应问题。Broadview APM支持完整业务交易链的监控。通过在应用系统中设定关键交易点,可以实现对这些关键交易应用性能指数、最终用户体验的持续跟踪。Broadview APM还支持以Live视图形式串联关键交易形成完整的业务交易链。Broadview APM还是一个高速摄像机,能够自动记录应用系统运行过程中出现的各类异常信息,包括错误码、异常原因及调用参数,帮助开发人员还原问题发生时的运行场景。 解决方案优势与特色主动感知真有用户体验系统实时跟踪业务系统、关键交易的真有用户体验,形成Apdex指数、平均响应时间、吞吐量、成功率和用户数5大关键指标。其中,Apdex指数更是遵循Apdex.org标准,基于平均响应时间计算得出的用户满意度,是国际标准。 图2用户体验跟踪 全面透视业务应用架构应用完整交付链需要感知业务交易过程中的各个环节。应用拓扑以最直观的形式对系统维护人员呈现业务系统的运行方式。系统支持业务拓扑节点的自发现,并提供图形化配置界面,依据自发现的各服务节点应用组件,快速绘制应用拓扑图。业务仪表板以应用拓扑图为中心,实时呈现各业务组件的关键性能指标,集中体现服务运行质量。借助时间轴技术,还可以快速根据最近一个月内的每分钟运行情况进行快速定位,方便回放故障演变过程。 图3 应用拓扑图 实时跟踪关键业务交易可从识别出的所有业务交易中筛选出感兴趣的交易作为关键交易。系统除实时统计关键交易的Apdex指数、吞吐量、平均响应时间、成功率、用户数5大关键指标,还实时监测不满意用户数、不满意的访问数,便于快速确定业务影响范围。 图4 关键交易跟踪 性能瓶颈定位与预警APM系统具备定位关键业务故障到IT基础架构的能力。通过服务组件间、监控指标间的关联分析,确定各组件、各指标间的内在关联关系,用于问题初步定位、根源分析、回溯分析及趋势预测等。与协同座谈会相比,该方法将极大减少运维人员确定故障环节的时间。 系统每分钟生成的运行快照,可用于回溯分析。利用时间轴技术,运维人员可对业务系统及关键交易监控指标历史数据进行智能分析、挖掘、检索等,完整还原某个历史时点业务系统运行情况。 关系分析和回溯分析可帮助问题初步定位。当业务系统运行发生的问题后,系统在应用拓扑图中定位至具体的服务组件,提供与问题关联的具体监控指标,为问题根源分析奠定基础。 问题初步定位后,运维人员即可针对问题组件使用各种专项工具对问题根源进行分析。 图5 故障定位与告警 应用问题重现与优化Broadview APM除提供WEB端最慢的访问页面外,还可以查看最慢的SQL语句,方便开发人员优化。 图6 最慢的页面 图7 慢SQL跟踪 解决方案收益Broadview APM专为以下用户设计: 业务管理人员l 全盘把握实时业务性能,实时了解用户访问性能l 进行主动性能管理,持续提升用户体验 IT运维人员l 当业务运行出现潜在风险时即预警,而不是出现故障时l 发现主机监控、日志分析等检测不到的潜在问题l 快速故障域隔离,查找故障根源 IT 开发人员l 查看最慢的页面、最慢的SQLl 查看错误码信息和页面调用参数,修正程序BUGl 定位性能瓶颈节点,持续提升性能