提供方耗時正常，調用方毛刺頻頻详情 - 後端京東雲開發者日志

一現象

調用方A -> JSF -> 提供方B

大多數情況下，調用方耗時和提供方耗時基本沒有差別

個別情況下，調用方耗時遠高於提供方耗時，大概5分鐘20+次

1.調用方A耗時如下圖

在這裏插入圖片描述

2.提供方B耗時如下圖

在這裏插入圖片描述

3.調用方監控添加

在調用JSF接口前後加的監控，沒有其他任何邏輯，包括日誌打印

4.提供方監控添加

在代碼最外層JSF接口加的監控，之外沒有任何代碼邏輯

5.耗時對比

時間段	調用方A平均耗時	提供方B平均耗時	調用方A最大耗時	提供方B最大耗時	調用方A超100ms數量	提供方B超100ms數量
2024-06-15 13:30:00 至 2024-06-15 13:59:59	大部分是低於60ms 有突刺	大部分不超過20	580ms	32ms	24次	0

二排查思路

1.數據流轉環節分析

調用方從請求到接收數據，除了提供方業務耗時，還有其他環節，分別是

1.調用方容器和宿主機

2.調用方->提供方經過的網絡環節

3.提供方容器和宿主機的環節

4.提供方->調用方的網絡環節

2.初步定位

容器和宿主機之間由於流量過大，處理壓力大導致的瓶頸

網絡波動

一步一步排除，先看網絡

3.找證據

3.1 找監控

找到監控相關的技術同學，回答説沒有網絡的監控

於是找到了JDOS的同學，排查後提供了一種懷疑方向，如下圖

在這裏插入圖片描述

容器內存使用率（包含cache）基本一直保持在99%以上，建議先確定該指標的影響，並降低該指標

3.1.2 指標含義

指標定義文檔解釋如下

在這裏插入圖片描述

還是看不太懂指標的含義，懵B狀態

提工單諮詢，給出的解決方案如下

在這裏插入圖片描述

java應用，無ngix，還是懵，繼續求助

最後得出結論：

這個之前在營銷中心那邊有遇到C++ 使用page cache 還有使用zgc的需要參考一下cache這個指標，其他的場景目前看系統會在物理內存不夠用的時候釋放cache；

這個是指有的c++應用底層接口直接使用了pagecache，java可以忽略

更詳細解釋：

內存那部分是這樣的，每個容器的 Memory Cgroup 在統計每個控制組的內存使用時包含了兩部分，RSS 和 Page Cache。

RSS 是每個進程實際佔用的物理內存，它包括了進程的代碼段內存，進程運行時需要的堆和棧的內存，這部分內存是進程運行所必須的。

Page Cache 是進程在運行中讀寫磁盤文件後，作為 Cache 而繼續保留在內存中的，它的目的是為了提高磁盤文件的讀寫性能。（Java程序只要操作磁盤讀寫也會用到 page cache）

有時會看到這樣一種情況：容器裏的應用有很多文件讀寫，你會發現整個容器的內存使用量已經很接近 Memory Cgroup 的上限值了，但是在容器中我們接着再申請內存，還是可以申請出來，並且沒有發生 OOM。那是因為容器中有部分是PageCache,當容器需要更多內存時，釋放了PageCache,所以總大小並沒有變化。

結論：對於java系統來説，容器內存使用率（包含cache）沒有影響（cache會自動釋放）