摘要:?目錄 使用云監(jiān)控實(shí)現(xiàn)GPU云服務(wù)器的GPU監(jiān)控和報(bào)警(上) - 自定義監(jiān)控 使用云監(jiān)控實(shí)現(xiàn)GPU云服務(wù)器的GPU監(jiān)控和報(bào)警(下)-云監(jiān)控插件監(jiān)控 1???? 背景 上一篇文章我們介紹了如何使用阿里云云監(jiān)控服務(wù)提供的自定義監(jiān)控功能,利用自定義監(jiān)控提供的API或者SDK,通過(guò)自定義腳本可以將GP.
1???? 背景
上一篇文章我們介紹了如何使用阿里云云監(jiān)控服務(wù)提供的自定義監(jiān)控功能,利用自定義監(jiān)控提供的API或者SDK,通過(guò)自定義腳本可以將GPU云主機(jī)內(nèi)采集的GPU數(shù)據(jù)上報(bào),在云監(jiān)控控制臺(tái)上添加相應(yīng)的GPU監(jiān)控項(xiàng),就可以實(shí)現(xiàn)對(duì)指定GPU實(shí)例內(nèi)指定GPU的相應(yīng)數(shù)據(jù)進(jìn)行監(jiān)控,對(duì)相應(yīng)監(jiān)控項(xiàng)設(shè)置相應(yīng)數(shù)據(jù)的報(bào)警規(guī)則,就能實(shí)現(xiàn)監(jiān)控?cái)?shù)據(jù)的自動(dòng)報(bào)警。
???????? 但是自定義監(jiān)控的采集腳本需要用戶自己實(shí)現(xiàn),并且云監(jiān)控控制臺(tái)上自定義監(jiān)控的展示維度也很有限,只能查看指定VM指定GPU的某個(gè)數(shù)據(jù)。
???????? 通過(guò)使用阿里云提供的云監(jiān)控插件,可以一鍵安裝就實(shí)現(xiàn)GPU指標(biāo)的采集和上報(bào),同時(shí)展示維度上可以與目前的ECS一樣獲得更多維度的展示,比如Dashborad監(jiān)控大盤(pán),可以監(jiān)控集群級(jí)別的GPU指標(biāo),主機(jī)監(jiān)控則可以在一個(gè)頁(yè)面顯示該實(shí)例所有GPU的所有監(jiān)控指標(biāo)。
本文將會(huì)詳細(xì)介紹如何通過(guò)安裝云監(jiān)控插件來(lái)實(shí)現(xiàn)更全面、更易用的GPU云監(jiān)控和報(bào)警。
2???? 云監(jiān)控Agent安裝
云監(jiān)控插件從1.2.28版本開(kāi)始支持GPU數(shù)據(jù)的采集。云監(jiān)控Agent(即云監(jiān)控插件)的安裝可以參考云監(jiān)控官方使用文檔:云監(jiān)控Agent安裝。同時(shí)支持Linux和Window操作系統(tǒng)。
也可以在云監(jiān)控控制臺(tái)主機(jī)監(jiān)控部分一鍵點(diǎn)擊安裝最新的云監(jiān)控插件,并查看云監(jiān)控插件的版本,如下圖:
3???? 如何在云監(jiān)控控制臺(tái)查詢GPU監(jiān)控?cái)?shù)據(jù)
目前只有GPU計(jì)算型實(shí)例支持GPU云監(jiān)控,實(shí)例必須要安裝GPU驅(qū)動(dòng)和云監(jiān)控插件的1.2.28以上版本,即可在主機(jī)監(jiān)控查看GPU相關(guān)監(jiān)控?cái)?shù)據(jù)、配置報(bào)警規(guī)則,或在Dashboard中配置監(jiān)控圖表。
3.1?? 主機(jī)監(jiān)控
在云監(jiān)控控制臺(tái)中進(jìn)入主機(jī)監(jiān)控,進(jìn)入需要查看監(jiān)控?cái)?shù)據(jù)的實(shí)例,點(diǎn)擊GPU監(jiān)控標(biāo)簽頁(yè),就可以看到該實(shí)例所有GPU的GPU使用率、編碼器/解碼器使用率、顯存使用量、GPU功率、GPU溫度等監(jiān)控?cái)?shù)據(jù)。
3.2?? Dashboard中自定義監(jiān)控大盤(pán)
可以在云監(jiān)控控制臺(tái)Dashboard中創(chuàng)建自定義GPU監(jiān)控大盤(pán),以多種圖表類型大盤(pán)展示分別分組、實(shí)例、GPU維度的各個(gè)GPU指標(biāo)。
3.2.1?? 折線圖
下圖是以折線圖形式展示特定分組的實(shí)例維度GPU顯存使用量的平均值,可以一目了然的查看相關(guān)實(shí)例的顯存使用量波動(dòng)情況。
下圖是以折線圖形式展示特定分組的分組維度GPU溫度的平均值,可以一目了然的查看指定分組相關(guān)實(shí)例的GPU溫度波動(dòng)情況。
3.2.2?? TopN表格
下圖是以TopN表格形式展示實(shí)例維度GPU溫度的最大值,并以倒序方式展示,可以一目了然的查看用戶賬號(hào)下所有GPU實(shí)例的實(shí)時(shí)溫度情況,并確定GPU溫度最高的實(shí)例。
下圖是以TopN表格形式展示實(shí)例維度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用戶賬號(hào)下所有GPU實(shí)例的實(shí)時(shí)功率情況,并確定GPU功率最高的實(shí)例。
TopN表格形式同樣能非常方便的查看各個(gè)實(shí)例的GPU利用率和編碼器/解碼器利用率以及顯存使用情況,從而判斷業(yè)務(wù)運(yùn)行是否正常,以及判斷資源利用是否充分。
4???? 如何設(shè)置報(bào)警規(guī)則
新增的GPU監(jiān)控項(xiàng)添加報(bào)警規(guī)則方式同ECS的其他指標(biāo)一樣,可以針對(duì)某一特定指標(biāo)設(shè)置報(bào)警規(guī)則,如下圖:
推薦通過(guò)創(chuàng)建模板后將模板應(yīng)用于分組的方式批量添加GPU報(bào)警。查看報(bào)警模板最佳實(shí)踐。
5???? 監(jiān)控項(xiàng)說(shuō)明
GPU相關(guān)監(jiān)控指標(biāo)提供3個(gè)維度的數(shù)據(jù)
5.1?? GPU維度監(jiān)控項(xiàng)
GPU維度的指標(biāo),采集每個(gè)GPU層面的監(jiān)控?cái)?shù)據(jù)。
MetricName
單位
名稱
dimensions
gpu_memory_freespace
Bytes
GPU維度顯存空閑量
instanceId,gpuId
gpu_memory_totalspace
Bytes
GPU維度顯存總量
instanceId,gpuId
gpu_memory_usedspace
Bytes
GPU維度顯存使用量
instanceId,gpuId
gpu_gpu_usedutilization
%
GPU維度GPU使用率
instanceId,gpuId
gpu_encoder_utilization
%
GPU維度編碼器使用率
instanceId,gpuId
gpu_decoder_utilization
%
GPU維度解碼器使用率
instanceId,gpuId
gpu_gpu_temperature
℃?
GPU維度GPU溫度
instanceId,gpuId
gpu_power_readings_power_draw
W
GPU維度GPU功率
instanceId,gpuId
gpu_memory_freeutilization
%
GPU維度顯存空閑率
instanceId,gpuId
gpu_memory_useutilization
%
GPU維度顯存使用率
instanceId,gpuId
5.2?? 實(shí)例維度監(jiān)控項(xiàng)
實(shí)例維度指標(biāo)對(duì)單個(gè)ECS實(shí)例上的多個(gè)GPU監(jiān)控?cái)?shù)據(jù)做最大值、最小值、平均值的聚合。便于查看實(shí)例層面的整體使用情況。
MetricName
單位
名稱
dimensions
instance_gpu_decoder_utilization
%
實(shí)例維度GPU解碼器使用率
instanceId
instance_gpu_encoder_utilization
%
實(shí)例維度GPU編碼器使用率
instanceId
instance_gpu_gpu_temperature
℃?
實(shí)例維度GPU溫度
instanceId
instance_gpu_gpu_usedutilization
%
實(shí)例維度GPU使用率
instanceId
instance_gpu_memory_freespace
Bytes
實(shí)例維度GPU顯存空閑量
instanceId
instance_gpu_memory_freeutilization
%
實(shí)例維度GPU顯存空閑率
instanceId
instance_gpu_memory_totalspace
Bytes
實(shí)例維度GPU顯存總量
instanceId
instance_gpu_memory_usedspace
Bytes
實(shí)例維度GPU顯存使用量
instanceId
instance_gpu_memory_usedutilization
%
實(shí)例維度GPU顯存使用率
instanceId
instance_gpu_power_readings_power_draw
W
實(shí)例維度GPU功率
instanceId
5.3?? 分組維度監(jiān)控項(xiàng)
分組維度指標(biāo)對(duì)單個(gè)應(yīng)用分組里的多個(gè)ECS 實(shí)例的監(jiān)控?cái)?shù)據(jù)做最大值、最小值、平均值的聚合。便于查看集群層面的整體使用情況。
MetricName
單位
名稱
dimensions
group_gpu_decoder_utilization
%
分組維度GPU解碼器使用率
groupId
group_gpu_encoder_utilization
%
分組維度GPU編碼器使用率
groupId
group_gpu_gpu_temperature
℃
? 分組維度GPU溫度
groupId
group_gpu_gpu_usedutilization
%
分組維度GPU使用率
groupId
group_gpu_memory_freespace
Bytes
分組維度GPU顯存空閑量
groupId
group_gpu_memory_freeutilization
%
分組維度GPU顯存空閑率
groupId
group_gpu_memory_totalspace
Bytes
分組維度GPU顯存總量
groupId
group_gpu_memory_usedspace
Bytes
分組維度GPU顯存使用量
groupId
group_gpu_memory_usedutilization
%
分組維度GPU顯存使用率
groupId
group_gpu_power_readings_power_draw
W
分組維度GPU功率
groupId
6???? 如何通過(guò)OpenAPI查詢GPU監(jiān)控?cái)?shù)據(jù)
可以使用OpenAPI來(lái)查詢GPU監(jiān)控?cái)?shù)據(jù)。參考文檔:https://help.aliyun.com/document_detail/51936.html
參數(shù)說(shuō)明:Project=acs_ecs_dashboard,Metric及Dimensions參考上述監(jiān)控項(xiàng)表格中的GPU指標(biāo)。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評(píng)論