这是一例发生在运行mpls vpn的网络上由ios软件bug引起的故障案例,我把他整理出来供大家参考与讨论,故障的发生与解决都带有偶然性,并不重要, 只希望通过讨论,能够提高我们分析问题,解决问题的能力.
某城市a城域网骨干两台7206(r1与r2)上联核心网,下联城域,互为备份,运行mpls,图就不画了,呵呵.某日升级城域,对城域网 进行调整与扩容.(下文中的城市b的城域结构有所不同,规模也大些,但在此例中也可按此结构理解,故不做详细说明) 【程序编程相关:Netmeeting无法穿透路由器故障解】一.故障缘由 【推荐阅读:单臂路由/PPPoE/PPPoA配置实例】1. 升级7206ios 【扩展信息:路由器作TFTP服务器 IOS巧升级】升级过程:2. 业务割接3. 冗余测试.hsrp测试与全网测试.业务测试,做最后一次用户连通性测试,ok,走人! 4. 观察阶段.第二天,某用户报mpls vpn网络不通.(注:割接过程不对用户配置进行修改!)二.故障现象用户报割接城市a到另外城市b的mpls vpn业务中断.城市a的某用户业务是通过ce设备以mpls vpn的形式接入到城市a的pe路由器上(就是刚刚将的升级过的骨干路由器cisco vxr 7206)的,同样,城市b的某用户业务是通过ce设备以mpls vpn的形式接入到省骨干网相应的pe路由器.故障现象是城市a的某用户可以ping通城市a本地的pe路由器,城市a某用户本地网络连接无任何问题,但不能ping通远端城市b的pe路由器的某用户业务子接口.同样城市b的某用户可以ping通城市b本地的pe路由器,城市b某用户本地网络连接无任何问题,但不能ping通远端城市a的pe路由器.最奇怪的是: 城市a某用户业务所连接的pe路由器上,同时存在其他五个vpn的用户,这五个vpn用户网络业务运行完全正常. 且其网络业务的设置与某用户业务的设置是同一类型的.所有的vpn业务之间的命令比较,不多一句,不少一句.某用户vpn业务,城市a与城市b之间的vpn及ipv4的路由完全正常! 三.排错过程(1)故障的隔离第一时间在城市a某用户vpn所在的省骨干pe路由器上 cisco 7206vxr上开设逻辑端口loopback1, 并将loopback1 划入某用户vpn, 此时城市b某用户vpn可以收到此loopback 地址的路由,但仍旧无法ping通该loopback地址.因此可证明某用户vpn的中断不是新增的城域网设备引起的,问题产生在省骨干路由器之间的 mpls交互进程上.此时我们把所有的工作重点放在省骨干网之间的排错上.(2)命令处理流程主要的处理工作如下:1. 在城市a的骨干路由器r2上使用命令show ip vrf 检查mpls vpn的配置与rd的名字.发现都是正确的.... 下一页