什么是內(nèi)存泄漏:
程序向系統(tǒng)申請(qǐng)內(nèi)存,使用完不需要之后,不釋放內(nèi)存還給系統(tǒng)回收,造成申請(qǐng)的內(nèi)存被浪費(fèi).
發(fā)現(xiàn)系統(tǒng)中內(nèi)存使用量隨著時(shí)間的流逝,消耗的越來(lái)越多,例如下圖所示:
接下來(lái)的排查思路是:
1.監(jiān)控系統(tǒng)中每個(gè)用戶進(jìn)程消耗的PSS (使用pmap工具(pmap pid)).
PSS:按比例報(bào)告的物理內(nèi)存,比如進(jìn)程A占用20M物理內(nèi)存,進(jìn)程B和進(jìn)程A共享5M物理內(nèi)存,那么進(jìn)程A的PSS就是(20 - 5) + 5/2 = 17.5M
2.監(jiān)控/proc/meminfo輸出,重點(diǎn)觀察Slab使用量和slab對(duì)應(yīng)的/proc/slabinfo信息
3.參考/proc/meminfo輸出,計(jì)算系統(tǒng)中未被統(tǒng)計(jì)的內(nèi)存變化,比如內(nèi)核驅(qū)動(dòng)代碼
直接調(diào)用alloc_page()從buddy中拿走的內(nèi)存不會(huì)被單獨(dú)統(tǒng)計(jì)
以上排查思路分別對(duì)應(yīng)下圖中的1,2,3 :
在排查的過(guò)程中發(fā)現(xiàn)系統(tǒng)非常空閑,都沒(méi)有跑任何用戶業(yè)務(wù)進(jìn)程。
其中在使用slabtop監(jiān)控slab的使用情況時(shí)發(fā)現(xiàn)size-4096 不停增長(zhǎng)
通過(guò)監(jiān)控/proc/slabinfo也發(fā)現(xiàn)SReclaimable 的使用量不停增長(zhǎng)
while true; do sleep 1 ; cat /proc/slabinfo >> /tmp/slabinfo.txt ; echo "===" >> /tmp/slabinfo.txt ; done
由此判斷很可能是內(nèi)核空間在使用size-4096 時(shí)發(fā)生了內(nèi)存泄漏.
接下來(lái)使用trace event(tracepoint)功能來(lái)監(jiān)控size-4096的使用和釋放過(guò)程,
主要用來(lái)跟蹤kmalloc()和kfree()函數(shù)對(duì)應(yīng)的trace event, 因?yàn)樗麄兊膖race event被觸發(fā)之后會(huì)打印kmalloc()和kfree()所申請(qǐng)和釋放的內(nèi)存地址,然后進(jìn)一步只過(guò)濾申請(qǐng)4096字節(jié)的情況。
#trace-cmd record -e kmalloc -f 'bytes_alloc==4096' -e kfree -T
(-T 打印堆棧)
等待幾分鐘之后…
#ctrl ^c 中斷trace-cmd
#trace-cmd report
以上步驟相當(dāng)于:
等待幾分鐘之后…
#cp /sys/kernel/debug/tracing/trace_pipe /tmp/kmalloc-trace
從trace-cmd report的輸出結(jié)果來(lái)看,很多kmalloc 對(duì)應(yīng)的ptr值都沒(méi)有kfree與之對(duì)應(yīng)的ptr值
這就說(shuō)明了cat進(jìn)程在內(nèi)核空間使用size-4096之后并沒(méi)有釋放,造成了內(nèi)存泄漏。
為了進(jìn)一步精確定位到是使用哪個(gè)內(nèi)核函數(shù)造成的問(wèn)題,此時(shí)手動(dòng)觸發(fā)vmcore
#echo c > /proc/sysrq-trigger
然后使用crash工具分析vmcore:
#crash ./vmcore ./vmlinux.debug
讀出上面kmalloc申請(qǐng)的ptr內(nèi)存信息
(讀取0xffff880423744000內(nèi)存開(kāi)始的4096個(gè)字節(jié),并以字符形式顯示)
發(fā)現(xiàn)從上面幾個(gè)ptr內(nèi)存中讀出的內(nèi)容都是非常相似,仔細(xì)看一下發(fā)現(xiàn)都是/proc/schedstat 的輸出內(nèi)容。
通過(guò)閱讀相關(guān)代碼發(fā)現(xiàn),當(dāng)讀出/proc/schedstat內(nèi)容之后,確實(shí)沒(méi)有釋放內(nèi)存
然后發(fā)現(xiàn)kernel上游已經(jīng)有patch解決了這個(gè)問(wèn)題:
commit: 8e0bcc722289
fix a leak in /proc/schedstats
原文標(biāo)題:一次解決Linux內(nèi)核內(nèi)存泄漏實(shí)戰(zhàn)全過(guò)程
文章出處:【微信公眾號(hào):Linuxer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
內(nèi)核
+關(guān)注
關(guān)注
3文章
1383瀏覽量
40434 -
Linux
+關(guān)注
關(guān)注
87文章
11350瀏覽量
210462
原文標(biāo)題:一次解決Linux內(nèi)核內(nèi)存泄漏實(shí)戰(zhàn)全過(guò)程
文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
開(kāi)關(guān)電源漏電怎么辦?開(kāi)關(guān)電源漏電流標(biāo)準(zhǔn)是什么?
Linux下如何管理虛擬內(nèi)存 使用虛擬內(nèi)存時(shí)的常見(jiàn)問(wèn)題
linux驅(qū)動(dòng)程序如何加載進(jìn)內(nèi)核
Linux內(nèi)核測(cè)試技術(shù)
![<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>測(cè)試技術(shù)](https://file1.elecfans.com/web2/M00/02/4E/wKgZoma68fmAMBkcAADMAfJtb9Y443.png)
如何檢測(cè)內(nèi)存泄漏
NONOS 1.5.3/1.5.4 SSL內(nèi)存泄漏的原因?
想通過(guò)perf工具來(lái)檢查2段不同代碼的內(nèi)存占用率,但一直沒(méi)找到,怎么辦?
工控主板發(fā)生故障該怎么辦?
電容負(fù)極熔斷怎么辦
![電容負(fù)極熔斷<b class='flag-5'>怎么辦</b>](https://file1.elecfans.com/web2/M00/C8/A5/wKgaomYWLi6AciaAAAQMJ4425l0500.jpg)
微軟發(fā)布Linux內(nèi)核Rust模塊優(yōu)化補(bǔ)丁
C語(yǔ)言內(nèi)存泄漏問(wèn)題原理
![C語(yǔ)言<b class='flag-5'>內(nèi)存</b><b class='flag-5'>泄漏</b>問(wèn)題原理](https://file1.elecfans.com/web2/M00/C4/F2/wKgZomX5CPGAHxynAAAdVE956KA826.png)
【鴻蒙】webview內(nèi)存泄漏問(wèn)題的分析報(bào)告
Linux內(nèi)核內(nèi)存管理之內(nèi)核非連續(xù)物理內(nèi)存分配
![<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b><b class='flag-5'>內(nèi)存</b>管理之<b class='flag-5'>內(nèi)核</b>非連續(xù)物理<b class='flag-5'>內(nèi)存</b>分配](https://file1.elecfans.com/web2/M00/C1/9D/wKgaomXX-KCADAsrAAAaZXMwKKg445.png)
評(píng)論