博客 / 詳情

返回

Dubbo應用可觀測性升級指南與踩坑記錄

應用從dubbo-3.1.*升級到dubbo-*:3.2.*最新穩定版本,提升應用的可觀測性和度量遙測數據準確性

1. dubbo版本發佈説明(可不關注)

dubbo版本發佈

https://github.com/apache/dubbo/releases

https://github.com/apache/dubbo/tags

  • 【升級兼容性】3.1 升級到 3.2

dubbo-3.2.0

2. 應用修改點

建議使用dubbo的最新發布版本
dubbo-3.2.16

應用一般只需要升級dubbo-spring-boot-starter版本到3.2.10,相關組件版本檢查是否一致

要求

  • dubbo-spring-boot-starter版本3.2.10dubbo系列版本一樣 (xxx-spring-boot-starter引入,項目裏可不單獨引用)
  • 【依賴可選】netty系列版本4.1.101.Final
  • 【依賴可選】 fastjson2 版本2.0.46 (全部統一使用hessian2參數序列化方式)
  • 【依賴可選】protobuf-java版本3.24.2
  • 【依賴可選】t-digest版本3.3
  • 檢查jar包dubbo-spring-boot-observability-starterspring-boot-starter-actuator是否存在。

版本檢查
通過Maven依賴樹命令分析mvn dependency:tree > dependency-tree.txt
IDEA,通過Maven依賴分析功能,關鍵詞搜索

Maven依賴分析

2.1 jar包升級

pom.xml依賴聲明

<parent>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-parent</artifactId>
    <version>2.7.16</version>
    <relativePath/>
</parent>

<properties>
    <dubbo-spring-boot.version>3.2.10</dubbo-spring-boot.version>
    <netty.version>4.1.101.Final</netty.version>
    <micrometer.version>1.12.0</micrometer.version>
    <prometheus-client.version>0.16.0</prometheus-client.version>
    <prometheus-pushgateway.version>0.16.0</prometheus-pushgateway.version>
</properties>

<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.apache.dubbo</groupId>
            <artifactId>dubbo-spring-boot-starter</artifactId>
            <version>${dubbo-spring-boot.version}</version>
        </dependency>
    </dependencies>
</dependencyManagement>

pom.xml依賴

<dependencies>
    <dependency>
        <groupId>org.apache.dubbo</groupId>
        <artifactId>dubbo-spring-boot-starter</artifactId>
    </dependency>
</dependencies>
  • 【版本檢查】 fastjson2版本升級到2.0.46

fastjson不太穩定,問題較多,風險較大。

參數序列化方式,建議保持不變。

全部統一使用hessian2參數序列化方式

2.2 屬性配置

application.properties

management.server.port=18180
#management.server.base-path=
management.server.servlet.context-path=
management.endpoints.web.base-path=/
management.endpoints.web.exposure.include=prometheus
management.endpoints.web.exposure.exclude=metrics
management.endpoints.web.path-mapping.prometheus=metrics
management.metrics.export.prometheus.descriptions=false
management.metrics.tags.application=${spring.application.name}

# 消費者從提供者同步地址信息等元數據
dubbo.application.metadata-service-protocol=dubbo
dubbo.application.qos-port=22222
dubbo.metrics.protocol=prometheus
dubbo.metrics.enable-jvm=true
dubbo.metrics.enable-threadpool=true
dubbo.metrics.enable-registry=false
dubbo.metrics.enable-metadata=false
dubbo.metrics.export-metrics-service=false
dubbo.metrics.use-global-registry=true
dubbo.metrics.enable-rpc=true
dubbo.metrics.aggregation.enabled=true
dubbo.metrics.aggregation.enable-qps=true
dubbo.metrics.aggregation.enable-rt-pxx=true
dubbo.metrics.aggregation.enable-rt=true
dubbo.metrics.aggregation.enable-request=true
dubbo.metrics.histogram.enabled=true

【配置可選】Apollo統一的基礎配置(集成外部配置數據源-配置中心)

建議使用Nacos

apollo-client依賴檢查

apollo.bootstrap.enabled=true
apollo.bootstrap.namespaces=*,common-middleware-dubbo-metrics

2.3 類檢查機制設置【升級必須設置】

若不設置,泛化調用可能會失敗。

4-21 - 檢測到不安全的序列化數據

出參入參對象可能有些未實現Serializable序列化接口,引起調用異常。

解法詳見【官方文檔】類檢查機制

【解法】AutoConfiguration-自動配置

ApplicationConfig applicationConfig = new ApplicationConfig();
// 類檢查機制
applicationConfig.setSerializeCheckStatus("DISABLE");
applicationConfig.setCheckSerializable(false);

【解法】屬性文件

# 類檢查機制
dubbo.application.serialize-check-status=DISABLE
dubbo.application.check-serializable=false

2.5 live存活探針日誌-建議屏蔽

Kubernetes通過存活探針(liveness probe)檢查容器是否還在運行,每隔2s探測一次,打印不少日誌,建議屏蔽。

logback-k8s.xmllogback-spring.xml配置文件

<!-- k8s liveness probe qos日誌很多,不打印 -->
<logger name="org.apache.dubbo.qos.command" level="warn" additivity="false"/>
logging.level.org.apache.dubbo.qos.command=warn

3. 踩過的坑

[應用升級Dubbo3問題記錄]()

3.1 檢查系統最終組件版本

  • dubbo-boot-starter-*系列版本3.2.10 (xxx-spring-boot-starter引入,項目裏可不單獨引用)
  • fastjson2版本2.0.46 (全部統一使用hessian2參數序列化方式)
  • netty版本4.1.101.Final
  • protobuf-java版本3.24.2
  • t-digest版本3.3
  • 檢查jar包dubbo-spring-boot-observability-starterspring-boot-starter-actuator是否存在。
  • micrometer系列組件版本是否一樣
  • prometheussimpleclient系列組件版本是否一樣

3.2 MetadataService報NPE異常

原因是提供者DubboAccessLogFilter拋出NPE異常,引起消費者獲取應用地址等元數據信息失敗。

dubbo過濾器加載機制調整

在Filter中調用RpcContext.getServiceContext().isConsumerSide()方法報空指針錯誤 · Issue #11716 · apache/dubbo

2024-01-23 11:51:14,075 [Dubbo-framework-metadata-retry-thread-1] ERROR org.apache.dubbo.registry.client.metadata.MetadataUtils -  [DUBBO] Failed to get app metadata for revision 6dd35818cdc09f4b682f8ac3fe312847 for type local from instance 192.168.108.31:8504, dubbo version: 3.2.10, current host: 192.168.104.218, error code: 1-39. This may be caused by , go to https://dubbo.apache.org/faq/1/39 to find instructions. 
org.apache.dubbo.rpc.RpcException: Failed to invoke remote method: getMetadataInfo, provider: dubbo://192.168.108.31:8502/org.apache.dubbo.metadata.MetadataService?connections=1&corethreads=2&dubbo=2.0.2&group=member&port=8502&prefer.serialization=hessian2&protocol=dubbo&release=3.2.10&retries=0&side=consumer&threadpool=cached&threads=100&timeout=3000&version=1.0.0, cause: org.apache.dubbo.remoting.RemotingException: java.lang.NullPointerException
java.lang.NullPointerException
    at com.xxx.member.config.DubboAccessLogFilter.invoke$original$xDfvMLE5(DubboAccessLogFilter.java:44)

【解法】對於@Activate自動激活的過濾器,不能再顯示配置Filter

# 刪除這些
dubbo.provider.filter=dubboAccessLogFilter
@Activate(group = CommonConstants.PROVIDER, order = 1)
public class DubboAccessLogFilter implements Filter {
    @Override
    public Result invoke(Invoker<?> invoker, Invocation invocation) throws RpcException {
        // ...
        RpcContextAttachment rpcContext = RpcContext.getServerAttachment();
        // ...
    }
}

3.3 netty版本衝突

netty版本要和dubbo依賴的版本一樣或兼容

<properties>
    <netty.version>4.1.101.Final</netty.version>
    <micrometer.version>1.12.0</micrometer.version>
    <prometheus-client.version>0.16.0</prometheus-client.version>
    <prometheus-pushgateway.version>0.16.0</prometheus-pushgateway.version>
</properties>
java.lang.NoSuchMethodError: io.netty.handler.codec.http2.Http2FrameCodecBuilder: method <init>()V not found
        at org.apache.dubbo.rpc.protocol.tri.TripleHttp2FrameCodecBuilder.<init>(TripleHttp2FrameCodecBuilder.java:32)
        at org.apache.dubbo.rpc.protocol.tri.TripleHttp2FrameCodecBuilder.fromConnection(TripleHttp2FrameCodecBuilder.java:37)

3.4 p95指標計算衝突

t-digest要高於3.3elasticsearch裏引入了低版本。

<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch</artifactId>
            <version>5.3.3</version>
            <exclusions>
                <exclusion>
                    <groupId>com.tdunning</groupId>
                    <artifactId>t-digest</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
    </dependencies>
</dependencyManagement>

3.5 參數對象未實現Serializable序列化接口

4-21 - 檢測到不安全的序列化數據

3.1 升級至 3.2

序列化協議升級

請求從消費者應用調用具體服務方法時,可能參數值為空,報如下異常。

Serialized class com.xxx.perform.request.XxxRequest is not in allow list. Current mode is `STRICT`, will disallow to deserialize it by default. Please add it into security/serialize.allowlist or follow FAQ to configure it., dubbo version: 3.2.5, current host: 192.168.108.111, error code: 4-21. This may be caused by , go to https://dubbo.apache.org/faq/4/21 to find instructions

解法詳見【官方文檔】類檢查機制

【解法】AutoConfiguration-自動配置

ApplicationConfig applicationConfig = new ApplicationConfig();
// 類檢查機制
applicationConfig.setSerializeCheckStatus("DISABLE");
applicationConfig.setCheckSerializable(false);

// 提供者配置層
ProviderConfig providerConfig = new ProviderConfig();
// 參數解析序列化方式
providerConfig.setPreferSerialization("hessian2");
providerConfig.setSerialization("hessian2");

【解法】屬性文件

# 類檢查機制
dubbo.application.serialize-check-status=DISABLE
dubbo.application.check-serializable=false
# 參數解析序列化方式
# 提供者配置層
dubbo.provider.prefer-serialization=hessian2
dubbo.provider.serialization=hessian2

3.6 使用 sharding-jdbc 造成 SQLFeatureNotSupportedException: isValid

暫時關閉actuator對db的監控

  • https://www.cnblogs.com/laeni/p/16089788.html
  • https://blog.csdn.net/kurohatan/article/details/119951747
management.health.db.enabled=false

3.7 屏蔽dubbo訪問警告日誌

[DUBBO] Will write to the default location, " + "please enable this feature by setting 'accesslog.fixed.path=true' and restart the process. " + "We highly recommend to not enable this feature in production for security concerns, " + "please be fully aware of the potential risks before doing so!, dubbo version: 3.2.10, current host: 192.168.107.130, error code: 0-28. This may be caused by Change of accesslog file path not allowed. , go to https://dubbo.apache.org/faq/0/28 to find instructions.

dubbo協議配置,不設置accesslog訪問日誌配置項。

# 刪除這些
- protocolConfig.setAccesslog(false);
- protocolConfig.setAccesslog("false");

3.8 Spring應用上下文刷新兩次

這些信息在應用啓動日誌裏出現兩次,ContextRefreshedEvent事件會被觸發兩次,Spring以父子容器模式運行。

Initializing Spring embedded WebApplicationContext
Root WebApplicationContext: initialization completed

Tomcat initialized with port(s): 8080 (http)
Tomcat initialized with port(s): 18180 (http)

應用裏有基於監聽ContextRefreshedEvent事件的邏輯,可能會存在兩次運行的風險。

防止重複觸發

ContextRefreshedEvent使用注意事項
  • 方案一:增加一個是否初始化的標識,進行初始化前判斷標識。
  • 方案二:改為監聽ApplicationReadyEvent事件,只會觸發一次。
/**
 * 併發開關
 */
private final AtomicBoolean concurrentSwitch = new AtomicBoolean(false);

if (concurrentSwitch.compareAndSet(false, true)) {
    // do something
}

先前,18180 端口是以 Jetty 服務器進程啓動,不是 Tomcat。
父子容器,應該是 8080 和 18180 都使用 Tomcat 容器啓動 引入。
應用以 父容器 為主線。可以查看對象地址

receive event org.springframework.context.event.ContextRefreshedEvent[source=org.springframework.boot.web.servlet.context.AnnotationConfigServletWebServerApplicationContext@34766f4b, started on Wed Jan 10 10:07:53 CST 2024, parent: org.springframework.boot.web.servlet.context.AnnotationConfigServletWebServerApplicationContext@2dd80673]

receive event org.springframework.context.event.ContextRefreshedEvent[source=org.springframework.boot.web.servlet.context.AnnotationConfigServletWebServerApplicationContext@2dd80673, started on Wed Jan 10 10:07:41 CST 2024]

3.9 應用未暴露18180端口

dubbo應用可能未依賴spring-boot-starter-web,未啓動Servlet容器,進而未暴露18180端口。

因為18180端口暴露依賴於Servlet容器啓動。

【可能解法】增加spring-boot-starter-web依賴可以解決

<!-- spring-boot -->
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-web</artifactId>
</dependency>

3.10 RPC調用消費者端反序列化響應對象時數據丟失一條

[FEATURE] 開啓JSONWriter.Feature.ReferenceDetection序列化有java.util.List類型成員引用的對象能得到“$ref”序列化結果 · Issue #

RPC調用響應結構中的List某一條數據丟失問題,響應結構中存在外層字段引用List中的元素($ref),是fastjson2的問題,升級到fastjson2-2.0.46解決。

3.11 fastjson2 JSON反序列化異常

com.alibaba.fastjson2.JSONException: skip not support type INT32 68 · Issue #1257 · alibaba/fastjson

本問題是fastjson2的問題,升級到fastjson2-2.0.46解決。

Caused by: org.apache.dubbo.remoting.RemotingException: java.io.IOException: org.apache.dubbo.common.serialize.SerializationException: com.alibaba.fastjson2.JSONException: skip not support type INT32 68

Caused by: org.apache.dubbo.remoting.RemotingException: java.io.IOException: org.apache.dubbo.common.serialize.SerializationException: com.alibaba.fastjson2.JSONException: skip not support type INT32 69

4. 應用部署後檢查

應用觀測指標

  • 收集觀測指標

應用日誌中搜索18180關鍵詞

> message:"18180" 

Tomcat started on port(s): 18180 (http) with context path ''

Tomcat initialized with port(s): 18180 (http)

應用本地啓動並訪問

http://localhost:18180/metrics

若指標URL訪問不了,請檢查下面這些配置項

management.server.port=18180
#management.server.base-path=
management.server.servlet.context-path=
management.endpoints.web.base-path=
management.endpoints.web.exposure.include=prometheus
management.endpoints.web.exposure.exclude=metrics
management.endpoints.web.path-mapping.prometheus=metrics

可觀測工作台

  • [Dubbo可觀測儀表盤]()

應用名裏搜索

Dubbo可觀測

triple協議

1.應用啓動日誌裏搜索tri協議或8506端口

ZookeeperRegistry -  [DUBBO] Register: tri://*.*.*.*:8506/com.*.dubbo.api.custom.Xxx

2.DubboKeeper工作台

內存滿了,數據可能未及時更新

頁面裏查找8506

5. 升級進度

[Dubbo-3.2升級進度表-飛書表格(配置各個環境的升級統計圖)]()

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.