網絡管理員:兩例經典方案分析網絡排故經歷
長期做網絡工程,為客戶提供技術支持已經習慣了隨叫隨到。春節長假歸來,這段時間特別忙。很奇怪,一個不算長的假期,倒讓客戶的網絡滋生了不少毛病!本人有做網絡維護筆記的習慣,下面和大家共享兩例這幾天為客戶排除的網絡故障,頗具典型,希望能夠幫助到你。
案例1:合法用戶被防火墻拒之門外
故障現象
這次的客戶是本市社會保險局。正月初八全局工作人員上班***天,許多Intranet內部有權用戶打電話反映在查詢和操作保險資料時出現無法進行數據調用和修改的故障現象,此時屏幕提示登錄者為“非法用戶”;系統管理員同時還發現只有從防火墻處可以訪問網絡并修改數據。同時,一個有趣的現象卻是,Internet外部普通用戶在查詢各種用戶資料時卻沒有問題,他們無論從何處都可以順利地訪問Web服務器。
網絡結構
該社會保險局的網絡工程是我們承建的,其網絡結構比較復雜,含業務專用網、OA網、Intranet網和Internet網等。業務數據的安全設計為雙Web服務器,Internet用戶和Intranet用戶各用一個。Intranet的Web服務器兼有備份數據的功能,兩個Web服務器互聯,之間的業務數據同時更新。Internet用戶只能瀏覽、查詢數據并可以進行網上申報等各種服務,不能更改數據。對Intranet內部用戶實行有權訪問和申報、數據修改特權限制等體制。局內的OA網用戶可以象Internet用戶那樣隨時訪問和查詢Internet的Web數據服務器,其中設置了部分有權用戶,他們可以訪問Intranet業務網的Web服務器。安裝的防火墻對IP包進行過濾,只允許合法IP用戶進入。
故障診斷
顯然,故障現象與防火墻系統有很大關系。將網絡測試儀接入服務器所在網段,啟動網段搜索功能,可以發現Internet用戶的Web服務器,但不能發現Intranet的Web服務器。去掉防火墻,則可以搜索到該服務器。說明確實是防火墻的問題。但昨天安裝防火墻時整個系統是正常的,所以查找故障的焦點要放在安裝防火墻以后有無更改過防火墻參數。此即故障排除經驗中的所謂“動則有過”故障查找原則。如果能弄清網管人員都動過哪些參數和設置,查找故障的工作會便捷得多。經常讓人感到遺憾且奇怪的是,多數維護管理人員都不會承認更動過網絡的任何設置,這次也同以往一樣。
用網絡測試儀連續作ICMP類型PING測試發現,Web服務器是存在的,且反應率為***。說明Web服務器在網絡上且可以正常工作。同時用網絡一點通One Touch選擇Web服務器的IP地址為目標地址發送流量,啟動網絡測試儀的協議分析功能,發現數據幀指向防火墻以后就沒有任何反應了:任何回應數據幀都未出現。將網絡助理One Touch的IP地址設置成任何一個已經存在的有權用戶的IP地址,然后對Web服務器發送流量,這時網絡測試儀可以觀察到防火墻有回應數據幀出現。這說明防火墻對合法IP地址的有權用戶是有反應的,但一般返回的數據幀是非法用戶的提示信息。注意到前述現象中提到過只有防火墻能訪問Web服務器,我們就將網絡測試儀的MAC地址改為與防火墻相同的MAC地址,用網絡測試儀假冒防火墻進入網絡,啟動網段搜索時則可以看到久別了的Web服務器。
以上現象說明,該防火墻的功能比較強,除了能過濾IP地址外,還能對各站點的MAC地址進行過濾,以防止“擁有合法IP地址的非法用戶”進入系統,是一個比較好的“看門人”。但讓人疑惑的是昨天安裝防火墻時,網絡管理人員只啟動了IP包過濾功能,并未啟動MAC地址鑒別功能,那么,MAC地址濾波功能是誰啟動的呢?答案是:不得而知。查看防火墻幫助文件,按提示按下format下拉列表中的MAC地址過濾菜單,關閉MAC地址過濾功能,系統隨即恢復正常。
故障總結
不少防火墻是靠對IP地址進行過濾和用戶密碼識別等方法來鑒別有權用戶及其合法性等級的,一般不對網卡的MAC地址進行識別。對于具有固定用戶的Intranet網絡,具有MAC地址過濾功能的防火墻是非常有效的,它可以阻止對網絡的各種試探性進攻。在該網絡中對于Internet用戶,這一功能不能啟用,否則會造成正常用戶的訪問被屏蔽。 #p#
案例2:數據中心服務器造成的廣播風暴
故障現象
這次的客戶是本市某醫院。醫院各科室與電腦中心的聯絡基本中斷,只偶爾有部分數據交互能達成,但速度很慢,不知何故。由于電腦中心的網管系統也陷于癱瘓狀態,無法觀察任何網上設備的情況。
網絡結構
該醫院的網絡也是由我們承建的,其網絡結構比較復雜。整個網絡設置三臺核心WS-C6509交換機,分別位于三座建筑的設備間,三臺核心交換機通過千兆單模光纖互連。另外,還有一個數據中心,該中心部署了一臺服務器,各科室與這臺服務器進行數據的交互。
故障診斷
詢問各科室網絡內部工作情況,回答正常,只是與數據中心服務器的數據交互動作無法實現。可以基本斷定故障就在中心的計算機系統中。中心除了配置有HP公司的網管軟件OpenView外,沒有再配備其它任何網絡維護工具。所以一旦網管系統不能正常工作,運行維護人員也就無從下手。東城區和西城區的網絡主服務器分別在兩個不同的網段中,之間用交換器連接起來。全城結算主機與東城區主服務器在同一網段。用F683網絡測試儀接入東城區正常工作的網段觀察,發現Cisco5500交換機的Plot3Port4(第3插槽的第4端口)有異常流量,而該端口連接的正是西城區主服務器和網管系統所在的網段。為更仔細地觀察此網段的工作情況,將F683網絡測試儀和協議診斷器PI接入該網段,測得網絡持續流量為97%,其中錯誤幀占98%。錯誤類型為短幀40%,幀常50~60字節不等,長幀58%,幀長3000~5200字節不等,并報告了出錯機器的Mac地址。依此地址查找對應的機器,遺憾的是該電腦中心沒有Mac地址備份表(只有IP地址和符號名對應表)。試著用ICMP的Ping查找網管機和服務器,顯示Mac地址對應的是服務器的IP地址。重裝服務器網卡驅動程序,無效,用F683測試服務器端口,協議顯示Unknown,更換服務器網卡,重裝驅動程序并設置響應參數,重啟系統即恢復正常。
故障總結
服務器網卡已經損壞,發出的數據幀錯誤率為98%,只有不足1%的數據正常。所以網絡偶爾還有數據交互可以達成。我們知道,超長幀有封閉網絡的作用,主要是引起網絡速度變慢或網絡癱瘓,而短幀達到一定流量則會對網絡設備的工作協議造成一定程度的破壞,引起設備死機(實際測試中發現工作站對此更敏感些)。
網絡故障千奇百怪,已經完全超長了我們的想象。如果快速高效地排除故障呢?我的排故心得是:冷靜分析、故障隔離、軟硬兼施、積累經驗。
【編輯推薦】



















