摘要:?目錄 使用云監控實現GPU云服務器的GPU監控和報警(上) - 自定義監控 使用云監控實現GPU云服務器的GPU監控和報警(下)-云監控插件監控 1???? 背景 上一篇文章我們介紹了如何使用阿里云云監控服務提供的自定義監控功能,利用自定義監控提供的API或者SDK,通過自定義腳本可以將GP.
1???? 背景
上一篇文章我們介紹了如何使用阿里云云監控服務提供的自定義監控功能,利用自定義監控提供的API或者SDK,通過自定義腳本可以將GPU云主機內采集的GPU數據上報,在云監控控制臺上添加相應的GPU監控項,就可以實現對指定GPU實例內指定GPU的相應數據進行監控,對相應監控項設置相應數據的報警規則,就能實現監控數據的自動報警。
???????? 但是自定義監控的采集腳本需要用戶自己實現,并且云監控控制臺上自定義監控的展示維度也很有限,只能查看指定VM指定GPU的某個數據。
???????? 通過使用阿里云提供的云監控插件,可以一鍵安裝就實現GPU指標的采集和上報,同時展示維度上可以與目前的ECS一樣獲得更多維度的展示,比如Dashborad監控大盤,可以監控集群級別的GPU指標,主機監控則可以在一個頁面顯示該實例所有GPU的所有監控指標。
本文將會詳細介紹如何通過安裝云監控插件來實現更全面、更易用的GPU云監控和報警。
2???? 云監控Agent安裝
云監控插件從1.2.28版本開始支持GPU數據的采集。云監控Agent(即云監控插件)的安裝可以參考云監控官方使用文檔:云監控Agent安裝。同時支持Linux和Window操作系統。
也可以在云監控控制臺主機監控部分一鍵點擊安裝最新的云監控插件,并查看云監控插件的版本,如下圖:
3???? 如何在云監控控制臺查詢GPU監控數據
目前只有GPU計算型實例支持GPU云監控,實例必須要安裝GPU驅動和云監控插件的1.2.28以上版本,即可在主機監控查看GPU相關監控數據、配置報警規則,或在Dashboard中配置監控圖表。
3.1?? 主機監控
在云監控控制臺中進入主機監控,進入需要查看監控數據的實例,點擊GPU監控標簽頁,就可以看到該實例所有GPU的GPU使用率、編碼器/解碼器使用率、顯存使用量、GPU功率、GPU溫度等監控數據。
3.2?? Dashboard中自定義監控大盤
可以在云監控控制臺Dashboard中創建自定義GPU監控大盤,以多種圖表類型大盤展示分別分組、實例、GPU維度的各個GPU指標。
3.2.1?? 折線圖
下圖是以折線圖形式展示特定分組的實例維度GPU顯存使用量的平均值,可以一目了然的查看相關實例的顯存使用量波動情況。
下圖是以折線圖形式展示特定分組的分組維度GPU溫度的平均值,可以一目了然的查看指定分組相關實例的GPU溫度波動情況。
3.2.2?? TopN表格
下圖是以TopN表格形式展示實例維度GPU溫度的最大值,并以倒序方式展示,可以一目了然的查看用戶賬號下所有GPU實例的實時溫度情況,并確定GPU溫度最高的實例。
下圖是以TopN表格形式展示實例維度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用戶賬號下所有GPU實例的實時功率情況,并確定GPU功率最高的實例。
TopN表格形式同樣能非常方便的查看各個實例的GPU利用率和編碼器/解碼器利用率以及顯存使用情況,從而判斷業務運行是否正常,以及判斷資源利用是否充分。
4???? 如何設置報警規則
新增的GPU監控項添加報警規則方式同ECS的其他指標一樣,可以針對某一特定指標設置報警規則,如下圖:
推薦通過創建模板后將模板應用于分組的方式批量添加GPU報警。查看報警模板最佳實踐。
5???? 監控項說明
GPU相關監控指標提供3個維度的數據
5.1?? GPU維度監控項
GPU維度的指標,采集每個GPU層面的監控數據。
MetricName
單位
名稱
dimensions
gpu_memory_freespace
Bytes
GPU維度顯存空閑量
instanceId,gpuId
gpu_memory_totalspace
Bytes
GPU維度顯存總量
instanceId,gpuId
gpu_memory_usedspace
Bytes
GPU維度顯存使用量
instanceId,gpuId
gpu_gpu_usedutilization
%
GPU維度GPU使用率
instanceId,gpuId
gpu_encoder_utilization
%
GPU維度編碼器使用率
instanceId,gpuId
gpu_decoder_utilization
%
GPU維度解碼器使用率
instanceId,gpuId
gpu_gpu_temperature
℃?
GPU維度GPU溫度
instanceId,gpuId
gpu_power_readings_power_draw
W
GPU維度GPU功率
instanceId,gpuId
gpu_memory_freeutilization
%
GPU維度顯存空閑率
instanceId,gpuId
gpu_memory_useutilization
%
GPU維度顯存使用率
instanceId,gpuId
5.2?? 實例維度監控項
實例維度指標對單個ECS實例上的多個GPU監控數據做最大值、最小值、平均值的聚合。便于查看實例層面的整體使用情況。
MetricName
單位
名稱
dimensions
instance_gpu_decoder_utilization
%
實例維度GPU解碼器使用率
instanceId
instance_gpu_encoder_utilization
%
實例維度GPU編碼器使用率
instanceId
instance_gpu_gpu_temperature
℃?
實例維度GPU溫度
instanceId
instance_gpu_gpu_usedutilization
%
實例維度GPU使用率
instanceId
instance_gpu_memory_freespace
Bytes
實例維度GPU顯存空閑量
instanceId
instance_gpu_memory_freeutilization
%
實例維度GPU顯存空閑率
instanceId
instance_gpu_memory_totalspace
Bytes
實例維度GPU顯存總量
instanceId
instance_gpu_memory_usedspace
Bytes
實例維度GPU顯存使用量
instanceId
instance_gpu_memory_usedutilization
%
實例維度GPU顯存使用率
instanceId
instance_gpu_power_readings_power_draw
W
實例維度GPU功率
instanceId
5.3?? 分組維度監控項
分組維度指標對單個應用分組里的多個ECS 實例的監控數據做最大值、最小值、平均值的聚合。便于查看集群層面的整體使用情況。
MetricName
單位
名稱
dimensions
group_gpu_decoder_utilization
%
分組維度GPU解碼器使用率
groupId
group_gpu_encoder_utilization
%
分組維度GPU編碼器使用率
groupId
group_gpu_gpu_temperature
℃
? 分組維度GPU溫度
groupId
group_gpu_gpu_usedutilization
%
分組維度GPU使用率
groupId
group_gpu_memory_freespace
Bytes
分組維度GPU顯存空閑量
groupId
group_gpu_memory_freeutilization
%
分組維度GPU顯存空閑率
groupId
group_gpu_memory_totalspace
Bytes
分組維度GPU顯存總量
groupId
group_gpu_memory_usedspace
Bytes
分組維度GPU顯存使用量
groupId
group_gpu_memory_usedutilization
%
分組維度GPU顯存使用率
groupId
group_gpu_power_readings_power_draw
W
分組維度GPU功率
groupId
6???? 如何通過OpenAPI查詢GPU監控數據
可以使用OpenAPI來查詢GPU監控數據。參考文檔:https://help.aliyun.com/document_detail/51936.html
參數說明:Project=acs_ecs_dashboard,Metric及Dimensions參考上述監控項表格中的GPU指標。
本文為云棲社區原創內容,未經允許不得轉載。
評論
查看更多