WLAN常见问题和故障维护应急处理流程
站点故障应急处理流程 发现故障 故障分析初步判断 电源? 设备? 线路? 电源检查设备检查线路检查 网管远程处理 远程网管解决 YESNO 网管处理结束 去现场处理 供电是否正常 登陆查看设备是否正常 链路是否正常 处理结束 总结经验,整 理报告 检查更换电源 NO YES 检查更换设备 NO YES 检查更换设备 NO YES 站点故障一般处理流程 应急技术实施预案 1.1WLAN 公众网应急方案 1.1.1 覆盖区域无信号 故障现象 在覆盖区域内找不到 CMCC 信号, 故障原因 可能的原因有: 原因一:AP 断电; 原因二:网线断路; 原因三:供电模块故障; 原因四:AP 故障; 排除故障 故障处理方式与步骤: 步骤一 先根据图纸确定出问题 AP; 步骤二 先从网管处看此 AP 是否报警,是转步骤三 步骤三 检查电源、线路、供电模块及 AP,确定故障原因 步骤四 根据故障原因解决,如重新接电、更换故障设备 应急建议 要求对现场、熟悉、对设备位置熟悉,方案随时带在身边 1.1.2 用户无法获取 IP 地址 故障现象 用户无法获取 ip 地址 故障原因 可能的原因有: 原因一:用户端网卡配置问题; 原因二:用户端到 AC 的中间链路问题; 原因三:AC 上对应 ip-pool 配置问题: 原因四:AC 上没有可用于分配的 ip 地址了(ip-pool 地址耗尽) 排除故障 故障处理方式与步骤: 步骤一 检查用户端网卡配置,设置为自动获取 ip 地址,在 下先执行 ipconfig /release;再执行 ipconfig /renew; 步骤二 在 AC 上显示用户列表,查看用户端网卡是否已经有分出了的地址; 如果是,在 AC 上执行释放 IP,如果没有,转入步骤三。 步骤三 在 AC 上查看 ip-pool,查看是否有可用于分配的 ip 地址,如果没 有,尽快增加更多的 ip-pool。如果还有,转入步骤四。 步骤四 通过 AC 来 PING AP 地址,检查到用户端的链路情况是否正常。在 哪个位置出现问题,去出现问题的设备处检查解决。 应急建议 如果是 ip-pool 地址耗尽了,尽快增加更多的 ip-pool 地址。预 留部分网段做做应急用,及时监控地址池的分配情况,某些场馆经 常出现地址短缺情况的,及时扩大地址池。 1.1.3 用户获取 IP 地址但无法上网 故障现象 用户无法打开网页 故障原因 可能的原因有: 原因一:DNS 服务器有问题; 原因二:AC 往外网的路由不通; 排除故障 故障处理方式与步骤: 步骤一 更换 DNS 服务器看是否解决,否则转入步骤二 步骤二 在 telnet AC,然后往外网一步步 ping,看哪段出现问题,然后进行 解决 应急建议 需要路由器、AC、防火墙厂家紧密配合 1.1.4 用户无法通过认证 故障现象 用户无法通过认证 故障原因 可能原因: 原因一:用户名/密码错误; 原因二:帐号吊死; 原因三:AC 与 Radius 通信问题: 原因四:Radius 问题 排除故障 故障处理方式与步骤: 步骤一 判断保障是个别用户还是全部,如果是个别用户,进入步骤二; 如果普遍情况,进入步骤三。 步骤二 先到 AC 上查看在线用户的帐号,查看用户是否在线;如果在线, 强制用户下线;如果不在线,通过 radius 日志查看用户帐号属性 以及用户认证日志判断原因所在,进一步处理。 步骤三 先到 AC 上 ping radius 地址,看是否通;在查看 AC 上统计到的 radius 认证报文情况,判断 radius 是否有问题。 步骤四: 登录 Radius 服务器,检查系统工作进程是否正常, 必要时重启进 程或手工进行主备切换。 应急建议 如果是整体无法认证的话,先在AC 上执行开放认证。 方法是在 AC 上的配置界面里面,执行所有 IP 的源地址直通设 置。 1.1.5 用户无法访问 Portal 页面 故障现象 用户无法访问 Portal 页面 故障原因 可能原因: 原因一:用户端没有获取到 ip 地址; 原因二:AC 上配置的过滤策略不允许访问 Portal; 原因三:AC 与 Portal 通信出问题: 原因四:Portal 问题 故障处理方式与步骤: 步骤一 先判断用户端是否已经正确获取到了ip 地址;如果是,转入步骤 二。 步骤二 AC 上查看过滤策略;如果已经放开了的话,转入步骤三。 步骤三 AC 上 ping portal,看是否通,判断 Portal 业务情况。 步骤四: 登录 Portal 服务器,检查系统工作进程是否正常, 必要时重启进 程或手工进行主备切换。 经验: 接到故障的时候,先判断是整体还是个别,如果是个别用户,重 点检查用户端 pc 情况;如果是整体,重点检查 portal 情况以及 AC 上 portal 相关配置。 应急建议 如果是外置 portal 出问题了,建议先启用内置 portal 业务。 1.1.6 流量拥塞 故障现象 用户访问网页太慢,同时在网管上看到场馆交换机流量太大 故障原因 可能的原因有: 原因一:有人利用 BT 等高速下载工具下载。 原因二:场馆用户电脑感染病毒,发送大量广播包。 排除故障 故障处理方式与步骤: 步骤一:通过网络流量分析系统,来分析这个场馆的流量,看是 哪些流量造成的。并定位用户。 步骤二:通过 AC 上,显示用户流量,查看这个站点哪些用户流量 较大,将这些用户强行下线,由场馆维护人员用户排除故障。 应急建议 对用户全部进行带宽限速,并限制使用高速下载工具等应用。 1.2 设备故障应急流程 1.2.1 对于某些场馆路由突然中断或某些区域临时应急覆盖 可以安装 5.8G 网桥做临时传输或做临时覆盖。选取周围有传输 站点较高建筑(最好在十公里以内) ,安装 5.8G 网桥(B 端) ;在需 覆盖区域选择一个可视的地势高的建筑安装 5.8G 网桥(A 端) 。在需 覆盖区域做临时的分布系统或接原覆盖系统继续覆盖。 1.2.2 设备宕机 由于 Portal、Radius、路由器、交换机、AC、防火墙等系统均 具有双机的热备份,在一般情况下,主设备宕机之后,业务会自动切 换到备用设备之上,不会对业务造成影响。 碰到异常的情况,即主设备出现宕机的时候,业务并没有切换到 备用设备之上,可以通过网管监控设备上联口流量,可以及时发现, 发现之后, 马上在机房或场馆设备位置对主设备进行断电或者拔下与 备用机相连的心跳线,手工进行切换。 对于上述两种情况,业务切换到备用机上之后,我们要在第一时 间对主设备进行故障排除,如果是硬件问题,应该及时更换机器,保 证热备系统的正常环境。 即在认证平台故障时,首先启用 A 方案流程,如 A 方案出现问题可 再启用 B 方案流程,在 A 流程或 B 流程启动后如认证平台故障恢复 则重新恢复正常认证。 1.2.3 站点出现信号弱或无信号情况 应急小组须常备设备(笔记本、测线器、备件等)及时到现 场。对现场信号情况进行测试,判断出故障原因,如是分布原因或 本身设备原因, 立即排除故障; 如是合作厂家设备原因, 及时通知, 配合解决。 认证故障 A 方案 认证恢