作者:黃立偉,田文慶,楊彬,詹鵬飛
針對城域網運維自動化水平較低、人工成本高且無法擺脫重復運維勞動的現狀,本文探討了當前城域網自動化運維實現的關鍵點、難點,并針對目前城域網工作的重點、痛點,結合運維的實際情況以及一些新技術、新方向,提出了完整的、可實現的自動化運維應用體系和應用思路,同時針對典型的應用案例給出了相應的解決方案,從而徹底改變傳統運維低質、低效的困難局面,推進城域網全生命周期自動化運維能力的提升。
1 背景
移動運營商城域網網絡隨著近幾年業務的迅猛發展,尤其隨著國家“寬帶中國”戰略的穩步推進,有線家庭寬帶網絡建設在三大運營商中已是后來居上,同時集客市場份額的競爭也日趨白熱化,并伴隨著公司5G網絡業務的接入,城域網絡承載的業務類型越來越多,包括寬帶上網業務、寬帶電視業務、CDN業務、IMS語音業務、互聯網專線業務、TR069業務、WLAN業務、網管業務和5G業務等等,業務復雜度越來越高,網絡規模也在成倍的增長,使得城域網網絡運維工作面臨很多的問題和挑戰:
(1)自動化運維水平有限。目前自動化運維還僅限于網絡設備的自動巡檢、備份,家寬、集客業務的自動配置,僅占全部運維工作的20%左右,對于資源的自動采集備案、拓撲的自動發現、資源的自動擴容、網絡故障的自動排障和修復、安全加固以及網業協同等方向還存在著諸多重復性、可優化的人工運維工作,需進一步通過提高自動化運維水平來提高運維效力。
(2)運維人員數量與網絡規模發展不匹配。近幾年公司為了實現降本增效的目的,將第三方維護人員全部削減,在自有人員數量不能及時補充,同時自動化運維水平又有限的情況下,依靠傳統運維手段的自有網絡運維人員通常都會身兼多職,包括業務配置、安全加固、指標管控、鏈路擴容和質量分析等等,時間上總是有些捉襟見肘,維護人員數量與網絡規模的不匹配日益凸顯,如果長期在高強度工作的情況下,難免會出現誤操作導致網絡故障。
(3)運維能力下降與網絡復雜度增加的矛盾突出。數通專業通常具有技術和專業性較強的特點,一個成熟的數通傳統運維人員基本要學習一年的時間,才能正常掌握各種協議內容、局數據配置規范內容和網絡排障,具備獨立支撐網絡運維的能力;同時,由于數通運維人員的跳槽率相對較高,所以如果運維人員梯度沒有培養好,很容易造成青黃不接的局面,伴隨著網絡規模和業務復雜度的不斷增加,按照傳統運維方式,運維能力的下降必將成為網絡支撐的重要短板且不斷激化。
綜上所述,全面實現自動化運維則是解決目前城域網傳統運維難題的理想解決方案,尤其是在降本增效、人力資源有限且存在諸多影響因素的情況下,城域網全生命周期的自動化運維將成為必然的發展趨勢。
2 自動化運維實現的關鍵點、難點的探討
從傳統運維模式向自動化運維模式推進的過程中,做到規范標準化、流程標準化,并能夠與當前的潮流技術如大數據、人工智能進一步結合,同時確保自動化運維的成果具備強可操作性是自動化運維實現的關鍵點、難點。
2.1規范標準化的重要性
規范標準化是實現資源自動管理、自動化運維的基礎,尤其是各廠家設備局數據配置規范的標準化,包括端口、VLAN等資源分配規范和業務配置模板規范的標準化。在自動化運維推進的過程中,不可避免的需要根據已定制規范對歷史局數據做出規范化的整改,而業務邏輯復雜且風險較大的規范化整改仍然需要人工去完成,同時整改后的結果需要程序作出高效的驗證。只有實現規范標準化,才能確保局數據的透明化、業務邏輯的清晰化,才能更好的構建統一的CMDB,讓自動化運維程序更容易掌握數據、理解數據和操作數據。
2.2流程標準化的重要性
城域網全生命周期的自動化運維涉及多個流程,包括資源請求和分配流程、業務自動配置激活流程、故障管控流程和業務校驗流程等,各個流程可能涉及多個系統、模塊間的調度協同,流程的標準化確保了自動化運維實現的可行性、穩定性和安全性,有效避免了自動化過程中可能出現的流程卡頓,保證了自動化運維進程的高效推進。
2.3融合新技術優勢
在規范和流程都標準化的基礎上,自動化運維還應融合大數據、機器學習、云計算和NFV等新技術優勢,使得在數據分析、關聯挖掘以及風險識別等方面做到更加的科學化、合理化、高效化,實現數據價值最大化、風險操作的最小化和成本使用最優化,充分發揮出自動化運維的高效、高能的優勢。
2.4可操作性和安全性保證
城域網全生命周期的自動化運維應具備較強的可操作性和安全性保障,可操作性是指平臺建設應符合簡單、實用、高效的宗旨,能夠切實解決當前運維工作中存在的痛點,例如重復性勞動、高數據價值工作,能夠打通業務系統、網管系統和數據配置等系統之間的壁壘,合理構建系統之間的耦合性,確保自動化運維任務的可執行性和執行準確性;同時,自動化運維盡管能夠提高生產效率,但是如何保證自動化的操作安全,尤其涉及局數據配置方面的操作,業務邏輯一定要嚴謹,關鍵環節授權要嚴控,日志審計可追蹤,退回操作響應要迅速,自動化運維的相關應急預案也要完備,否則誤操作對網絡業務造成的影響將會很嚴重。
3 自動化運維的應用方向
3.1自動化運維應用體系設計
城域網全生命周期的自動化運維應覆蓋資源管理、告警監控、故障搶修、業務配置、安全防護和網業協同等多個方面,做到全面自動化,徹底解放傳統運維勞動力,節約人力成本,提升生產效率。針對目前城域網運維工作中存在的痛點,急需自動化解決、可實現的重點應用如下圖1所示:
圖1 自動化運維應用體系
3.1.1資源管理自動化應用方向
實現資源管理自動化是整個自動化運維實現的基礎和保證,只有構建好統一的數據倉庫,保證基礎數據的準確性,實現自動化運維平臺對資源的透明化管理,才能促進其它自動化運維應用的落地。
3.1.1.1基礎資源自動管理應用思路
基礎資源的自動管理重點在基礎硬件資源管理以及IP資源管理,基礎硬件包括設備、板卡和鏈路等信息,IP資源主要涉及公網IP信息備案?;A資源信息的管理應全面依靠對設備現網數據的統一采集和操作變更事件觸發更新,確保系統資源信息同步的及時性和準確性,能夠最大化的減少人工勞作和提升資源準確性帶來的數據價值。
3.1.1.2拓撲自動發現應用思路
網絡拓撲的生成和變化,應依賴設備規范化的端口描述、業務邏輯、Vlan信息等能夠自動的發現渲染拓撲,改變依靠人工錄入和更新系統資源形成拓撲的傳統方案,實現拓撲的自動化、精細化管理,包括主、備業務走向,負載均衡情況等均在在拓撲自動化管理應用中體現。
3.1.1.3資源自動分配應用思路
在基礎資源自動化管理實現的基礎上,結合規范標準化和流程標準化,資源自動分配的實現就相對簡單,資源的自動分配重點在分配邏輯規則的實現上,比如VLAN資源的分配規則、端口資源跨板卡捆綁的分配規則等,同時,應做好資源分配沖突檢測作為資源分配最后的防護底線,資源的沖突檢測可以在設備上通過自動化程序在線監測,如ping操作監測IP沖突等,或是指令查看端口占用情況。
3.1.1.4資源自動預警應用思路
資源自動預警的應用重點在于實現鏈路利用率、端口占用率、地址資源占用情況和流量負載失衡四個比較核心的網絡關注點,通過自動計算形成統計預警報告,并自動下發通知給網絡管理員協調開展擴容工作,充分做好網絡擴容等工作的超前預警支撐。
3.1.1.5資源自動擴容應用思路
資源自動擴容包括板卡、鏈路以及地址池的擴容工作,其中板卡擴容相對簡單,僅需在設備執行簡單的加載指令,確保加載狀態正常后即完成擴容工作;地址池擴容工作和鏈路擴容相對復雜,涉及資源的自動分配,腳本的自動生成、業務的驗證,同時鏈路擴容還涉及鏈路調測等多個環節,城域網側的聯調應重點實現通過機器人實現與工程跳線人員的自動化調測。
3.1.2告警監控智能化應用
告警監控智能化應用不僅僅著眼于告警的發現,還需進一步通過自動化的學習、分析來確認和解決存在的異常問題,如流量突變的原因挖掘、OLT故障的研判以及告警自動壓縮等等,以告警壓縮自動化為例,無效告警的壓縮應依靠自動化的手段提升壓縮質量和效率,主要應用機器學習手段,通過對歷史數據的監督學習,利用告警出現的頻度高低、廠家建議是否壓縮、告警重要程度評級、告警影響程度和告警是否存在關聯告警等帶標記數據進行學習建模,最后通過告警壓縮模型,實現對告警自動化的高效壓縮,如圖2所示:
圖2 無效告警壓縮
3.1.3故障搶修智能化應用
城域網重點業務主要涉及家庭寬帶、電視以及集客專線業務,當網絡發生故障時,由于端到端的鏈路比較長,地市和省公司之間分管不同節點設備,排障過程的信息交互往往需要較常時間,靠人工去分析判斷故障點或是完成業務搶通速度就比較慢,構建自動化的排障能力和故障搶通能力,才是故障搶修提效同時提升客戶滿意度的關鍵能力。
3.1.3.1端到端智能排障應用思路
當單個用戶的投訴或是基本不存在接入匯聚特征的分散投訴時,則可以根據投訴業務的類型,做端到端的逐段ping測快速確定故障節點,但前提是根據干線鏈路的分類做好各條業務的走向分類,確保每一條業務都能準確關聯端到端的鏈路,這樣才能保證自動排障行為的可行性和結果的準確性。比如單個電視業務投訴,首先,自動排障功能模塊會在主干鏈路BNG-CR-BR上,由BNG發起到CR和BR的loopback地址的逐段ping測,確保干線鏈路無物理中斷和鏈路丟包;然后,再根據故障類型,如果是地址池問題,就可以ping測DHCP服務器地址,如果是直播問題,就可以ping測組播匯聚節點RP的地址,如果看不到電子節目單,就可以ping測EPG服務器,這樣根據ping測結果的丟包情況,無需聯系省公司運維人員,也可以快速確定故障問題點。
3.1.3.2業務自愈應用思路
業務自愈包括中斷自愈和質差自愈,城域網在進行扁平化組網改造之后,所有業務基本實現了自動切換的能力,包括溫備和熱備能力,所以自動化運維的業務自愈最實用的場景就是質差自愈,這里以OLT上聯鏈路CRC影響電視花屏為例,主要采集OLT上聯口存在錯誤CRC數據的鏈路端口,然后識別鏈路配對信息,尤其是配對鏈路的峰值利用率信息,并根據這個數據完成倒換前的科學評估,最后智能決策是否要執行倒換指令,將指令下發配置到設備,實現在投訴前的快速倒換處理。
3.1.4業務配置自動化應用
配置自動激活是最先實現自動化的應用,2016年寬帶配置基本實現了自動配置激活,2019年城域網也開始研究專線自動配置激活,在整個應用測試過程中,專線自動開通失敗原因統計如下圖3所示:
圖3 專線自動開通失敗原因統計
根據統計結果不難發現,IP和VLAN資源分配失敗或沖突導致的開通失敗是主要原因,另外,專線自動化開通涉及的服開系統和配置激活系統本身存在的程序bug占比也達到了12%,同時局數據配置的不規范導致程序無法執行本該執行的任務占比也達到了11% 。所以,從專線自動化開通的測試經驗來看,要確保自動化應用的可行性,首先,要強化資源自動分配環節的可執行性,要重點解決IP、VLAN等資源的分配邏輯和沖突檢測;其次,要落實局數據規范性整改,整改過程應盡量依靠自動化的手段取代人工,確保整改的準確性;最后,系統程序的健壯性也是自動化應用很重要的保障,避免系統本身的脆弱性給功能應用造成影響。
業務配置自動化應用雖然已經開展,但應用的范圍相對有限,要真正實現自動化運維就應該確??蓪嵤┬缘那疤嵯?,最大限度的開展自動化的應用。在自動化業務配置方面,不同廠家設備應統一構建好各種業務類型的配置模板,目前城域網的業務配置模板分類包括家寬業務配置模板、集客業務配置模板、WLAN業務配置模板、網管業務配置模板和業務采集配置模板,各類業務配置模板下還應盡量細化小類模板,這樣才能全面適應自動化業務配置的各類場景開通。
3.1.5安全防護自動化應用
隨著互聯網業務的蓬勃發展,在網絡安全防護方面暴漏的管理脆弱性也越來越突出,運營商在網絡建設初期就嚴格遵守“三同步”原則,避免設備“帶病入網”,同時網絡安全防護管理工作的部署也越來越細致。城域網隨著網絡規模的不斷增大,安全防護的任務也越來越來越艱巨,往往同樣的安全加固內容要全部設備逐一登錄添加配置,比如電視業務的安全加固;同樣,專線引流工作也僅僅是登錄設備配置相應的ACL簡單操作,但往往人工操作效率都相對較低,針對此類操作簡單、風險小的安全防護配置,應該是自動化運維工作解決的重點內容。
3.1.6網業協同智能化應用
隨著城域網業務規模、網絡規模的不斷發展壯大,同時又面臨市場業務發展的不確定性,網絡規劃建設、擴容等工作如果沒有科學的預測分析,盲目的新建資源有可能會造成城域網資源的浪費,也不利于后期網絡優化調整,因此,做好網業之間協同智能化工作顯得尤其重要,包括用戶滿意度分析中服務質差與網絡質差的分析,只有做好兩者之間的智能協同才能高效、更精準的挖掘質差原因。
3.1.6.1資源投放與市場發展協同應用思路
資源投放與市場發展的系統,可以結合鎮區網格化、市場規劃發展數據或是預增用戶量數據和鎮區現網設備的承載數據,通過各類業務量預測模型的計算,對新增容量需求做出準確的評估預測,最終輸出現有和新增評估后的容量對比圖,各個鎮區所需的擴容需求將一目了然,輕松實現資源的合理規劃和科學投放,自動化實現方案如下圖4所示:
圖4 自動化評估模型
3.1.6.2滿意度協同分析應用思路
客戶的滿意度分析也是自動化運維的一個重要應用點,通常客戶滿意度的分析基本都是針對調研數據,為了避免給客戶造成反感,調研數據基本都是簡單的詢問,調研結果可能會具有一定片面性,因此,只有依靠系統自動化,才能更全面的挖掘質差原因和落實好相關的改善措施。由于客戶滿意度涉及多個方面,通常包括網絡質量質差、裝維質量質差和業務服務質差,要全面的挖掘質差和改善質差,就要提升對服務質差和網絡質差的協同分析能力。利用機器學習方法實現協同分析的解決思路主要有三步:
第一步:構建網絡質量質差、裝維質量質差和業務服務質差的分類器,將每臺BNG下的投訴用戶數據輸入到分類器模型進行預測,最后對所有分類預測結果進行統計計算,對每臺BNG下帶用戶進行質差類別分類;
第二步:利用Apriori關聯規則算法,確定網絡質量質差、裝維質量質差和業務服務質差的關聯原因。
第三步:利用第一步實現的針對每臺BNG作出的細化質差原因分類,并結合第二步的關聯質差原因,對每臺BNG設備覆蓋范圍內的業務給出質差分析報告和整改方向。
4 系統架構
結合大數據處理和小數據靈活處理方案,搭建城域網自動化運維平臺,平臺設計主要由4層架構實現,如下圖5所示:
圖5 平臺架構
(1)數據源:主要實現數據采集功能,包括網管數據、局數據、DPI數據、服開數據、投訴數據等多維基礎數據。
(2)數據平臺:主要實現數據的存儲和預處理,構建統一、規范的基礎數據倉庫,供核心算法層進行建模分析、計算處理以及指令配置等。
(3)核心算法:主要集成了資源自動處理、業務自動配置、安全防護加固、網業智能協同以及實現大數據智能化分析的人工智能算法等,以實現應用層的自動化功能。
(4)功能應用:應用層主要實現6大功能,包括告警監控智能化、資源管理自動化、故障搶修智能化、安全防護自動化、業務配置自動化和網業協同智能化。
5 總結
城域網運維工作從傳統運維到自動化運維的轉變將成為必然趨勢,本文提出的全生命周期的自動化運維囊括了資源管理、告警監控、故障搶修、業務配置、安全防護和網業協同等多個場景應用,同時給出了當前城域網運維急需解決或是改進的典型應用問題點的解決方案,為城域網自動化運維的推進奠定了基礎,實現城域網全生命周期的自動化運維將給網絡運維帶來全面的降本增效,也為實現自動化運維向智能化運維階段發展帶來重要意義。
責任編輯:gt
評論
查看更多