среда, 17 июня 2009 г.

Везет как утопленнику.

Однако же с VSS-ом приключилась беда.
Сразу же повле установки и перехода на новое ядро все было отлично. Заменили первый коммутатор который благополучно проработал в паре со старым неделю. Затем заменили второй. VSS поднялся, дистрибьюшн подключился etherchannell'ами, и все вместе весело работало. Сутки...



Внезапно ночью началось все с того, что начали отваливаться eigrp нейборы, которые были подключены ко второму коммутатору в VSS

01:00:42 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.91 (GigabitEthernet2/1/5) is up: new adjacency
01:00:42 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.101 (Vlan127) is up: new adjacency
01:00:39 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.95 (GigabitEthernet2/1/13) is up: new adjacency
01:00:38 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.95 (GigabitEthernet2/1/13) is down: retry limit
exceeded
01:00:38 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.91 (GigabitEthernet2/1/5) is down: retry limit
exceeded
01:00:38 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.104 (GigabitEthernet2/2/3) is up: new adjacency
01:00:38 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.101 (Vlan127) is down: retry limit exceeded
01:00:38 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.97 (Vlan126) is down: retry limit exceeded
01:00:35 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.104 (GigabitEthernet2/2/3) is down: retry limit
exceeded
00:59:18  Syslog  %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.101 (Vlan127) is up: new adjacency
00:59:18 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.97 (Vlan126) is up: new adjacency
00:59:15 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.104 (GigabitEthernet2/2/3) is up: new adjacency
00:59:14 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.101 (Vlan127) is down: Interface Goodbye received
00:59:14 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.126.97 (Vlan126) is down: Interface Goodbye received
00:59:11 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.104 (GigabitEthernet2/2/3) is down: Interface
Goodbye received


И одновременно развалился хваленый multichassis etherchannel, но только тот, который был PAgP и LACP. Etherchannel с mode on продолжил работать.
01:00:24 %EC-SW1_SP-5-L3DONTBNDL2: Gi2/1/6 suspended: LACP currently not enabled on the remote port.
00:59:59 %EC-SW1_SP-5-L3DONTBNDL2: Gi2/1/2 suspended: LACP currently not enabled on the remote port.
01:01:10 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/1/11 suspended: PAgP not enabled on the remote port.
01:01:07 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/1/12 suspended: PAgP not enabled on the remote port.
01:01:07 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/1/4 suspended: PAgP not enabled on the remote port.
01:01:05 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/1/3 suspended: PAgP not enabled on the remote port.
01:01:05 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/2/1 suspended: PAgP not enabled on the remote port.
01:00:58 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/1/8 suspended: PAgP not enabled on the remote port.
01:00:43 %EC-SW1_SP-5-L3DONTBNDL1: Gi2/2/2 suspended: PAgP not enabled on the remote port.

На свитчах в дистрибьюшне в логах то же самое: PAgP not enabled on the remote port.
А затем начались различные ошибки в diagnostic tests. Примерно такие:

01:05:39 %PM-SW1_SP-4-ERR_DISABLE: diagnostics error detected on Gi2/5/3, putting Gi2/5/3 in err-disable state
01:05:39 %PM-SW1_SP-4-ERR_DISABLE: diagnostics error detected on Gi2/2/3, putting Gi2/2/3 in err-disable state
01:05:39 %PM-SW2_SPSTBY-4-ERR_DISABLE: diagnostics error detected on Gi2/5/3, putting Gi2/5/3 in err-disable state
01:05:39  %PM-SW2_SPSTBY-4-ERR_DISABLE: diagnostics error detected on Gi2/2/3, putting Gi2/2/3 in err-disable state
01:05:38 %DUAL-5-NBRCHANGE: IP-EIGRP(0) 10128: Neighbor 10.128.125.104 (GigabitEthernet2/2/3) is down: interface down
01:05:38 %HA_EM-6-LOG: Mandatory.go_porttx.tcl: GOLD EEM TCL policy for TestPortTxMonitoring
01:05:37 %HA_EM-6-LOG: Mandatory.go_porttx.tcl: GOLD EEM TCL policy for TestPortTxMonitoring
01:05:36 %CONST_DIAG-SW1_SP-3-HM_PORT_TEST_FAIL: Switch 2 Module 5 TestPortTxMonitoring Port(s)[3] failed.
System operation continues.
01:05:36 %CONST_DIAG-SW1_SP-3-HM_PORT_TEST_FAIL: Switch 2 Module 2 TestPortTxMonitoring Port(s)[3] failed.
System operation continues.

....

01:08:10 %PM-SW1_SP-4-ERR_DISABLE: diagnostics error detected on Gi2/1/5, putting Gi2/1/5 in err-disable state
01:08:10 %PM-SW1_SP-4-ERR_DISABLE: diagnostics error detected on Gi2/1/13, putting Gi2/1/13 in err-disable state
01:08:10 %PM-SW2_SPSTBY-4-ERR_DISABLE: diagnostics error detected on Gi2/1/5, putting Gi2/1/5 in err-disable state
01:08:10 %PM-SW2_SPSTBY-4-ERR_DISABLE: diagnostics error detected on Gi2/1/13, putting Gi2/1/13 in err-disable state
01:08:09 %HA_EM-6-LOG: Mandatory.go_porttx.tcl: GOLD EEM TCL policy for TestPortTxMonitoring
01:08:08 %CONST_DIAG-SW1_SP-3-HM_PORT_TEST_FAIL: Switch 2 Module 1 TestPortTxMonitoring Port(s)[5,13] failed.
System operation continues.


Состояние модулей сразу же стало Minor Error
core-vss#sh module switch 1
Switch Number:     1   Role:   Virtual Switch Active
----------------------  -----------------------------
Mod Ports Card Type                              Model              Serial No.
--- ----- -------------------------------------- ------------------ -----------
1   24  CEF720 24 port 1000mb SFP              WS-X6724-SFP
2   48  CEF720 48 port 10/100/1000mb Ethernet  WS-X6748-GE-TX
3    3  Network Analysis Module                WS-SVC-NAM-1
5    5  Supervisor Engine 720 10GE (Active)    VS-S720-10G

Mod MAC addresses                       Hw    Fw           Sw           Status
--- ---------------------------------- ------ ------------ ------------ -------
1  0022.5526.aa18 to 0022.5526.aa2f   3.2   12.2(18r)S1  12.2(33)SXH5 Ok
2  001d.70c4.9cac to 001d.70c4.9cdb   3.0   12.2(18r)S1  12.2(33)SXH5 Ok
3  001d.70d1.66f8 to 001d.70d1.66ff   4.2   7.2(1)       3.6(1a)      Ok
5  0019.e8bb.455c to 0019.e8bb.4563   2.0   8.5(2)       12.2(33)SXH5 Ok

Mod  Sub-Module                  Model              Serial       Hw     Status
---- --------------------------- ------------------ ----------- ------- -------
1  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok
2  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok
5  Policy Feature Card 3       VS-F6K-PFC3C         1.0    Ok
5  MSFC3 Daughterboard         VS-F6K-MSFC3         1.0    Ok

Mod  Online Diag Status
---- -------------------
1  Pass
2  Pass
3  Pass
5  Minor Error

core-vss#sh module switch 2
Switch Number:     2   Role:  Virtual Switch Standby
----------------------  -----------------------------
Mod Ports Card Type                              Model              Serial No.
--- ----- -------------------------------------- ------------------ -----------
1   24  CEF720 24 port 1000mb SFP              WS-X6724-SFP
2   48  CEF720 48 port 10/100/1000mb Ethernet  WS-X6748-GE-TX
5    5  Supervisor Engine 720 10GE (Hot)       VS-S720-10G

Mod MAC addresses                       Hw    Fw           Sw           Status
--- ---------------------------------- ------ ------------ ------------ -------
1  0022.5526.a838 to 0022.5526.a84f   3.2   12.2(18r)S1  12.2(33)SXH5 Ok
2  0022.557d.daf0 to 0022.557d.db1f   3.0   12.2(18r)S1  12.2(33)SXH5 Ok
5  001e.7a58.a148 to 001e.7a58.a14f   2.0   8.5(2)       12.2(33)SXH5 Ok

Mod  Sub-Module                  Model              Serial       Hw     Status
---- --------------------------- ------------------ ----------- ------- -------
1  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok
2  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok
5  Policy Feature Card 3       VS-F6K-PFC3C         1.0    Ok
5  MSFC3 Daughterboard         VS-F6K-MSFC3         1.0    Ok

Mod  Online Diag Status
---- -------------------
1  Minor Error
2  Pass
5  Minor Error


И проваленные тесты были тоже разные. На стендбае линейной карте и супервизоре это TestErrorCounterMonitor, а на активном супервизоре TestUnusedPortLoopback. Причем Failed Ports время от времени менялись, а иногда и вообще тест проходил нормально.
core-vss#show diagnostic result switch all failure
...
Switch 1 Module 5: Supervisor Engine 720 10GE (Active)  SerialNo :

Overall Diagnostic Result for Switch 1 Module 5 : MINOR ERROR
Test results: (. = Pass, F = Fail, U = Untested)
34) TestUnusedPortLoopback:

Port  1  2  3  4  5
-------------------
U  F  F  U  U


Switch 2 Module 1: CEF720 24 port 1000mb SFP  SerialNo :

Overall Diagnostic Result for Switch 2 Module 1 : MINOR ERROR
Test results: (. = Pass, F = Fail, U = Untested)
14) TestErrorCounterMonitor ---------> F
...
Switch 2 Module 5: Supervisor Engine 720 10GE (Hot)  SerialNo :
Overall Diagnostic Result for Switch 2 Module 1 : MINOR ERROR
Test results: (. = Pass, F = Fail, U = Untested)
14) TestErrorCounterMonitor ---------> F
...

BFD линк тоже упал и не реагировал вообще ни на что.
Еще одна беда обнаружилась на утро следующего дня, после того как перевели весь дистрибьюшн на etherchannel mode on. Как только несколько увеличилась активность пользователей и трафик стал балансироваться между свитчами в multichassis etherchannel, пакеты, попадающие в standby свитч не форвардились дальше. В итоге скорость передачи данных в сети упала практически до нуля. Пришлось просто загнать все интерфейсы standy свитча в shut.
Затем выяснилось, что на втором свитче линки поднимаются физически, а вот на первом, на супервизоре никаких признаков жизни у всех трех портов, кроме 10-гигабитных с ксенпаками.
В итоге, после общения с Cisco TAC оформляем RMA и меняем супервизор на active свитче.
Выводы - VSS конечно замечательная технология и в ходе тестирования показала себя только с хорошей стороны, но после таких глюков, хоть ничего критического в сети не случилось (если не считать тормозов сети из-за mode on, но там мы быстро среагировали, т.к. уже знали куда бежать), появляется стойкое желание отказаться от новомодных техник и сделать все по-старинке, как написано в книжках. А подобные танцы с бубнами, когда не знаешь даже в чем дело, и ничего не можешь сделать, потому что не представляешь возможных последствий своих действий, очень сильно выбивают из колеи. От vss пока скорее всего не откажемся только потому, что уже проделана значительная работа по внедрению, и откатиться назад будет едва ли не сложнее.

Комментариев нет: