那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

質(zhì)量視角下的系統(tǒng)穩(wěn)定性保障--穩(wěn)定性保障常態(tài)化自動化實踐

京東云 ? 來源:京東物流 翁美婷 ? 作者:京東物流 翁美婷 ? 2024-11-19 11:19 ? 次閱讀

作者:京東物流 翁美婷

一、前言

隨著系統(tǒng)數(shù)量增多,復(fù)雜度提高,線上應(yīng)急問題時有發(fā)生;加之需投入大量人力進行服務(wù)治理和驗證,為了減少日常應(yīng)急問題及提前排除風(fēng)險,發(fā)起對生產(chǎn)系統(tǒng)的持續(xù)綜合性治理,實現(xiàn)常態(tài)化穩(wěn)定性治理。在常態(tài)化治理過程中我們將識別問題等重復(fù)性有規(guī)律的工作實現(xiàn)自動化,技術(shù)人員更專注于解決問題。

wKgaoWc8A6SAY9UtAAB1kYm656o378.png

二、穩(wěn)定性治理常態(tài)化

wKgZoWc8A6eACij3AAH7IfdLMRI455.png

保障穩(wěn)定性治理常態(tài)化,部門組建了一支由研發(fā)團隊、測試團隊、架構(gòu)師組成的穩(wěn)定性治理隊伍,對部門核心應(yīng)用,核心服務(wù)風(fēng)險、服務(wù)器資源風(fēng)險、日志風(fēng)險、性能防劣化、以及技術(shù)專項等多維度持續(xù)風(fēng)險識別和治理。

1、核心服務(wù)風(fēng)險:重點關(guān)注服務(wù)響應(yīng)時間TP99跳點、響應(yīng)時間max跳點、可用率小于100%、秒級調(diào)用量1500次以上TP99性能等。

2、服務(wù)器資源風(fēng)險:巡檢的服務(wù)器有應(yīng)用服務(wù)器、DB、MDC、ES、Redis、Tidb、ClickHouse等;關(guān)注指標(biāo):CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)……;注意不同的服務(wù)器關(guān)注的指標(biāo)側(cè)重點不同。

3、性能防劣化:針對服務(wù)和資源的性能指標(biāo)分析峰值、趨勢、對比及偏差情況識別系統(tǒng)的劣化發(fā)生。服務(wù)維度:UMP調(diào)用量、響應(yīng)時間、可用率;資源維度:主機CPU、內(nèi)存、磁盤,數(shù)據(jù)庫慢SQL、QPS;其他中間件:JVM等。

4、日志風(fēng)險治理:日志問題包含異常日志治理、日志規(guī)范性、日志清理及磁盤監(jiān)控、日志級別動態(tài)配置等方面。

5、其他專項常態(tài)化:性能測試覆蓋日常架構(gòu)升級、重點項目需求,安全測試針對代碼安全、組件安全、敏感接口、數(shù)據(jù)安全的專項測試,數(shù)據(jù)庫慢SQL、數(shù)據(jù)結(jié)轉(zhuǎn)、主從延遲等,針對內(nèi)部外的應(yīng)急問題架構(gòu)和質(zhì)量復(fù)盤借鑒,識別自身系統(tǒng)可以改進提升項。

此外,應(yīng)急薄弱點專項、應(yīng)急演練、接口限流風(fēng)險等各類穩(wěn)定性保障專項持續(xù)推進。

三、穩(wěn)定性治理自動化

常態(tài)化治理的痛點:部門應(yīng)用多,覆蓋全部應(yīng)用耗費大量時間人力,當(dāng)增加review項時,工作量大幅增加,落地難度增大。如何提升review效率和可落地性?

自動化解決問題

1、線上問題巡檢自動化,降低重復(fù)性人力工作,研發(fā)更專注于問題優(yōu)化和高可用建設(shè)。

2、豐富風(fēng)險項檢測,風(fēng)險項擴充不會額外增加大量人力排查

3、部門全盤穩(wěn)定性監(jiān)控,問題檢測能力復(fù)用,從核心服務(wù)review復(fù)制到全量不需要增加人力。

wKgaoWc8A6eAWjEzAAEoKD5kVKI274.png

自動化過程

1、定義問題:明確指標(biāo),確定異常規(guī)則。在穩(wěn)定性常態(tài)治理過程沉淀了一套覆蓋核心服務(wù)風(fēng)險、服務(wù)器資源風(fēng)險、日志風(fēng)險、性能防劣化、以及其他專項的風(fēng)險項和識別方法,這部分是問題的來源。

2、自動識別:自動巡檢,識別線上異常。數(shù)據(jù)來源于兩部分,已有的UMP、Logbook、MDC,此外來源還有壓測數(shù)據(jù)、SLA定義等。

3、閉環(huán)問題:工單跟進,提升閉環(huán)效率,通過問題線上報表跟蹤治理進度,每日/每周的定時巡檢,回歸驗證,檢驗修復(fù)效果。

四、治理實踐

從UMP異常、資源異常、性能防劣化、logbook異常關(guān)鍵字、等維度線上服務(wù)穩(wěn)定性治理實踐案例。

1、UMP異常-可用率<100%

案例:

1、定義問題:可用率<100%

2、自動識別問題:獲取T+1的UMPkey監(jiān)控數(shù)據(jù),獲取可用率小于100異常點信息,統(tǒng)計可用率小于100的次數(shù),最低可用率及對應(yīng)的時間為輔助排查問題的依據(jù)。

3、問題跟進:UMP監(jiān)控XXXServiceImpl.buildBusinessSummary可用率經(jīng)常小于100%,排查因為正常業(yè)務(wù)問題未從方法監(jiān)控ump可用率中剔除,通過主動上報提高報警精準(zhǔn)度。

wKgZoWc8A6iASahzAAPqZQajJag676.png

2、資源異常-磁盤使用率風(fēng)險

案例:

1、定義問題:磁盤使用率>80%

2、自動識別問題:獲取T+1的資源監(jiān)控數(shù)據(jù),獲取磁盤/和/export的磁盤使用率>80%信息,統(tǒng)計出現(xiàn)次數(shù),最高利用率及對應(yīng)的時間。

3、問題跟進:0級應(yīng)用服務(wù)器磁盤使用超過80%,優(yōu)化log4j配置,補充監(jiān)控報警。

wKgaoWc8A6mAaIhpAAMZ19CfQGE644.png

3、Logbook關(guān)鍵字-空指針異常

案例:

1、定義問題:

log關(guān)鍵字分為程序類異常和業(yè)務(wù)類異常關(guān)鍵字:

(1)業(yè)務(wù)類異常:業(yè)務(wù)異常時主動輸出的錯誤日志,例如“下單失敗”,各系統(tǒng)根據(jù)需要自行打印和配置

(2)程序類異常:程序出現(xiàn)預(yù)期外的異常,自動拋出的錯誤日志,例如:NullPointerException

2、識別問題:某應(yīng)用日志報空指針異常。

wKgZoWc8A6qAK41YAALpvu2aROc143.png


4、 性能防劣化-CPU劣化

案例:CPU劣化案例

2月5日11:00-19:20之間核心鑒權(quán)服務(wù)分組機器12臺服務(wù)器CPU使用率先后峰值13%到27%異常增長,并持續(xù)高于日常值,對外提供服務(wù)無明顯異常,客戶無感知。對服務(wù)JVM分析發(fā)現(xiàn),頻繁FullGC引起CPU升高,打印堆棧信息某中間件占用內(nèi)存1.4G(JVM共4G),經(jīng)與中間件團隊溝通當(dāng)前版本存在線程池資源無法釋放問題。

wKgZoWc8A6uANZS2AAJB--UnzJQ710.png

五、結(jié)語

通過自動化的方式每日對線上核心UMP、Logbook、主機、數(shù)據(jù)庫、ES、Redis風(fēng)險進行巡檢,降低人工review工作量。穩(wěn)定性治理重在持續(xù),過程中可能會遇到痛點和艱難,值得技術(shù)人用技術(shù)不斷提升。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動化
    +關(guān)注

    關(guān)注

    29

    文章

    5622

    瀏覽量

    79656
  • 系統(tǒng)穩(wěn)定性

    關(guān)注

    0

    文章

    8

    瀏覽量

    6929
收藏 人收藏

    評論

    相關(guān)推薦

    智能測徑儀:高穩(wěn)定性成就高精測量之選!

    環(huán)境保持穩(wěn)定的測量性能。它以其高度的準(zhǔn)確性和可靠性,為生產(chǎn)過程中的直徑測量提供了堅實的保障。 精準(zhǔn)測量是高穩(wěn)定性智能測徑儀的核心優(yōu)勢之一。無論是微小的零件還是大型的工件,它都能夠快速
    發(fā)表于 06-05 17:30

    系統(tǒng)開環(huán)判斷閉環(huán)穩(wěn)定性

    閉環(huán)系統(tǒng)的開環(huán)傳遞函數(shù)可以用來判斷閉環(huán)系統(tǒng)穩(wěn)定性,也就是奈奎斯特穩(wěn)定性判據(jù)。第一種說法:如果開環(huán)傳遞函數(shù)穩(wěn)定(S復(fù)平面不存在右極點),若頻
    發(fā)表于 09-05 17:04

    阿里巴巴測試環(huán)境穩(wěn)定性提升實踐

    摘要: 測試環(huán)境是研發(fā)/測試同學(xué)最常用的功能,穩(wěn)定性直接影響到研發(fā)效率,那如何提升測試環(huán)境的穩(wěn)定性?阿里巴巴應(yīng)用與基礎(chǔ)運維平臺高級開發(fā)工程師張勁,通過阿里內(nèi)部實踐,總結(jié)了一套測試環(huán)境穩(wěn)定性
    發(fā)表于 03-07 17:18

    如何提高lwip的穩(wěn)定性

    如題、如何提高lwip的穩(wěn)定性,目前用的是f107+lwip1.4.1目前系統(tǒng)運行一段時間后lwip就掛掉啦(時間很不固定)問題;應(yīng)主要從那幾個方面來提高穩(wěn)定性,懇請大家指點一二,小弟在此不勝感激
    發(fā)表于 07-09 23:36

    電力系統(tǒng)中的電壓穩(wěn)定性介紹

      電力系統(tǒng)中的電壓穩(wěn)定性定義為電力系統(tǒng)在正常條件和受到干擾后在系統(tǒng)中的所有總線上保持可接受電壓的能力。在正常工作條件
    發(fā)表于 04-21 16:14

    電感的穩(wěn)定性

    電感的穩(wěn)定性 穩(wěn)定性是表示電感線圈參數(shù)隨環(huán)境條件變化而改變的程度。通常用電感溫度系數(shù)αL 來評定線圈的穩(wěn)定程度,它表示電感量相對淚度的穩(wěn)定
    發(fā)表于 08-22 14:33 ?1584次閱讀

    系統(tǒng)穩(wěn)定性

    現(xiàn)代控制理論-5.系統(tǒng)穩(wěn)定性
    發(fā)表于 12-13 22:20 ?0次下載

    電力系統(tǒng)中電壓穩(wěn)定性與攻角穩(wěn)定性問題的研究及綜述

    穩(wěn)定性問題是電力系統(tǒng)中一個復(fù)雜的問題。隨著大系統(tǒng)互聯(lián)方興未艾,同時市場之后的電力系統(tǒng)在經(jīng)濟性的驅(qū)動
    發(fā)表于 11-08 16:39 ?10次下載

    什么是熱電偶穩(wěn)定性?如何檢測熱電偶穩(wěn)定性

    在規(guī)定的條件,熱電特性變化大即表明穩(wěn)定性差,變化小則表明穩(wěn)定性良好。熱電偶的穩(wěn)定性好壞會直接影響到熱電偶測量的準(zhǔn)確性,因此,穩(wěn)定性是衡量熱
    發(fā)表于 12-31 09:19 ?2693次閱讀
    什么是熱電偶<b class='flag-5'>穩(wěn)定性</b>?如何檢測熱電偶<b class='flag-5'>穩(wěn)定性</b>?

    如何測試ERP系統(tǒng)穩(wěn)定性

    一個軟件的穩(wěn)定性對企業(yè)的工作產(chǎn)生著重要的影響,ERP系統(tǒng)如果在使用過程中安全性出現(xiàn)問題的,可能會導(dǎo)致數(shù)據(jù)的缺失,這將會影響決策。那么如何測試ERP系統(tǒng)穩(wěn)定性呢?下面一起來了解一
    發(fā)表于 05-13 17:00 ?1048次閱讀

    怎么分析電路的穩(wěn)定性

    怎么分析電路的穩(wěn)定性?? 電路的穩(wěn)定性是指電路在不同條件保持穩(wěn)定的能力。穩(wěn)定性是電路設(shè)計中十分重要的一個方面,因為
    的頭像 發(fā)表于 09-17 16:44 ?2090次閱讀

    如何在電壓不穩(wěn)的情況保障SSD的穩(wěn)定性能?

    如何在電壓不穩(wěn)的情況保障SSD的穩(wěn)定性能?
    的頭像 發(fā)表于 11-24 15:50 ?738次閱讀
    如何在電壓不穩(wěn)的情況<b class='flag-5'>下</b><b class='flag-5'>保障</b>SSD的<b class='flag-5'>穩(wěn)定性</b>能?

    自動控制原理怎么判斷系統(tǒng)穩(wěn)定性

    自動控制原理是研究控制系統(tǒng)行為和性能的科學(xué)。穩(wěn)定性是控制系統(tǒng)的一個重要性能指標(biāo),它描述了系統(tǒng)在受到擾動后能否恢復(fù)到平衡狀態(tài)的能力。 1.
    的頭像 發(fā)表于 07-29 10:28 ?2265次閱讀

    反射內(nèi)存卡是如何保障數(shù)據(jù)傳輸?shù)?b class='flag-5'>穩(wěn)定性

    反射內(nèi)存卡數(shù)據(jù)傳輸穩(wěn)定性保障
    的頭像 發(fā)表于 11-14 10:21 ?233次閱讀
    反射內(nèi)存卡是如何<b class='flag-5'>保障</b>數(shù)據(jù)傳輸?shù)?b class='flag-5'>穩(wěn)定性</b>的

    電子負(fù)載的保護功能:如何保障電源測試的穩(wěn)定性

    在電源測試過程中,電子負(fù)載作為關(guān)鍵設(shè)備,其保護機制對于確保測試的穩(wěn)定性和安全性至關(guān)重要。本文將探討源儀電子負(fù)載的保護功能,以及如何保障電源測試的穩(wěn)定性。選擇具備完善保護功能的電子負(fù)載,對于電源測試
    的頭像 發(fā)表于 01-02 17:04 ?148次閱讀
    電子負(fù)載的保護功能:如何<b class='flag-5'>保障</b>電源測試的<b class='flag-5'>穩(wěn)定性</b>
    百家乐7杀6| 德州扑克哪个平台好| 大发888娱乐游戏可以玩吗| 九州百家乐官网娱乐城| 乐天堂百家乐官网娱乐| 百家乐游戏出售| 大发888娱乐城俄罗斯| 仁化县| 百家乐官网技巧方法| 百家乐平注法口诀技巧| 奇台县| 菲律宾百家乐官网赌场娱乐网规则| 昆明百家乐装修装潢有限公司| 永利高娱乐| 扎赉特旗| 百家乐官网园是真的不| 网上玩百家乐的玩法技巧和规则| 宜都市| 百家乐平台哪个好本站所有数据都是网友推荐及提供 | 南京百家乐的玩法技巧和规则 | 百家乐官网的桌子| 玩百家乐高手支招篇| 大发888安装需要多久| 百家乐官网怎么玩最保险| 大发888娱乐城网站| 南宁百家乐官网赌| 缅甸百家乐视频| 百家乐官网赌场代理| 粤港澳百家乐娱乐| 百家乐官网线上游戏| 百家乐翻天qvod粤语| 津市市| 博之道百家乐技巧| 菲律宾百家乐官网游戏| 百家乐神算子| 水城县| 百家乐娱乐天上人间| 百家乐官网赌牌技巧| 大世界百家乐娱乐城| 金宝博百家乐官网现金| A8百家乐娱乐|