信创高可用 Prometheus 部署完全指南

信创（信息技术应用创新）是基于国产软硬件构建的 IT 生态体系，核心包含国产操作系统（如银河麒麟 V10、统信 UOS V20）、国产芯片（昇腾、寒武纪、壁仞等）、国产中间件等，目标是实现信息技术自主可控。Prometheus 是开源的云原生监控系统，采用 Go 语言开发，核心功能包括时序数据采集、存储、查询和告警，通过 Pull 模式（主动拉取指标）工作，支持动态服务发现和 PromQL 查询语

倔强的胖蚂蚁

47人浏览 · 2026-03-11 09:27:47

倔强的胖蚂蚁 · 2026-03-11 09:27:47 发布

1 背景认知

1.1 什么是信创环境

信创（信息技术应用创新）是基于国产软硬件构建的 IT 生态体系，核心包含国产操作系统（如银河麒麟 V10、统信 UOS V20）、国产芯片（昇腾、寒武纪、壁仞等）、国产中间件等，目标是实现信息技术自主可控。信创环境部署软件需解决兼容性问题，尤其是 CUDA 依赖替换、国密协议适配等核心需求。

1.2 什么是 Prometheus

Prometheus 是开源的云原生监控系统，采用 Go 语言开发，核心功能包括时序数据采集、存储、查询和告警，通过 Pull 模式（主动拉取指标）工作，支持动态服务发现和 PromQL 查询语言，广泛用于容器、服务器、应用的监控。其生态组件包括：

Prometheus Server：核心组件，负责采集和存储数据
Exporters：指标暴露器（如 Node Exporter 监控服务器）
Alertmanager：告警管理组件
PushGateway：接收短期任务指标推送
Grafana：可视化展示工具

1.3 高可用的意义

单节点 Prometheus 存在单点故障风险，高可用部署通过多节点集群、数据备份、故障自动切换等机制，确保监控系统 7×24 小时运行，避免因监控中断导致业务故障漏报。信创环境下的高可用还需额外满足国产软硬件兼容性和合规要求。

1.4 信创与非信创部署的核心差异

对比维度	信创环境部署	非信创环境部署
操作系统	银河麒麟 V10、统信 UOS V20 等国产系统	CentOS、Ubuntu 等国外系统
硬件适配	需兼容国产 CPU/GPU（昇腾、寒武纪等）	主要适配 x86/AMD 架构
依赖替换	需用国产 CUDA 兼容层（如 libkunlun_cuda.so）	直接使用 NVIDIA CUDA
安全合规	支持国密协议（SM4/SM2）	默认使用 AES 等国际加密标准
中间件依赖	需使用国密版中间件（如 OpenMPI 国密版）	通用开源中间件

2 核心配置

2.1 部署架构选择

信创高可用推荐采用 “Prometheus 集群 + Thanos + MinIO” 架构，核心优势：

多 Prometheus 节点冗余，避免单点故障
Thanos 实现数据汇总、去重和长期存储
MinIO 作为国产对象存储，适配信创环境数据持久化需求

架构组件分工：

组件	作用	部署数量
Prometheus Server	采集、存储指标数据	2 台（主从冗余）
Thanos Sidecar	对接 Prometheus，上传数据到 MinIO	与 Prometheus 一一对应
Thanos Query	统一查询入口，聚合多节点数据	2 台（负载均衡）
Thanos Compactor	压缩对象存储数据，优化查询性能	1 台
MinIO	国产对象存储，存储历史监控数据	1 台（或使用云厂商对象存储）
Alertmanager	告警分组、路由	2 台（集群模式）
Grafana	可视化展示	1 台
Node Exporter	采集服务器硬件指标	所有节点均部署

2.2 关键配置文件说明

2.2.1 Prometheus 主配置文件（prometheus.yml）

核心配置项包含采集规则、存储设置、Thanos 对接信息，信创环境需添加国产 Exporter 适配：

global:

scrape_interval: 15s # 采集间隔

evaluation_interval: 15s # 规则评估间隔

storage_config:

tsdb:

path: /data/prometheus # 本地存储路径

retention_time: 15d # 本地数据保留时间（剩余数据由Thanos迁移到MinIO）

scrape_configs:

# 采集自身指标

- job_name: "prometheus"

static_configs:

- targets: ["localhost:9090"]

# 采集服务器指标（Node Exporter）

- job_name: "node"

static_configs:

- targets: ["10.0.1.35:9100", "10.0.1.36:9100"] # 所有节点IP:端口

# 采集国产GPU指标（如昇腾）

- job_name: "ascend-gpu"

static_configs:

- targets: ["10.0.1.35:9200", "10.0.1.36:9200"] # 国产GPU Exporter端口

# Thanos对接配置

remote_write:

- url: "http://thanos-sidecar:10908/api/v1/receive"

2.2.2 Thanos 存储配置（storage.yaml）

适配 MinIO 国产对象存储：

type: s3

config:

bucket: "prometheus-data" # MinIO存储桶名称

endpoint: "10.0.1.35:9000" # MinIO服务地址

access_key: "admin" # MinIO访问密钥

secret_key: "admin123456" # MinIO密钥

insecure: true # 允许HTTP访问（生产环境建议启用HTTPS）

signature_version2: true

2.2.3 Alertmanager 告警配置（alertmanager.yml）

支持信创环境常用告警渠道（钉钉、企业微信）：

global:

resolve_timeout: 5m

route:

group_by: ['alertname']

group_wait: 10s

group_interval: 10s

repeat_interval: 1h

receiver: 'dingtalk'

receivers:

- name: 'dingtalk'

webhook_configs:

- url: 'http://prometheus-webhook-dingtalk:8060/dingtalk/webhook1/send' # 钉钉告警中间件地址

inhibit_rules:

- source_match:

severity: 'critical'

target_match:

severity: 'warning'

equal: ['alertname', 'dev', 'instance']

2.3 信创环境专属配置

2.3.1 CUDA 依赖替换（银河麒麟 / 统信 UOS）

Prometheus 部分组件依赖 GPU 加速时，需替换为国产 CUDA 兼容层：

# 1. 安装国产异构计算运行时（以昆仑芯为例）

sudo yum install -y libkunlun-cuda runtime-libs

# 2. 创建符号链接，替换默认CUDA库

sudo ln -sf /usr/lib64/libkunlun_cuda.so.1 /usr/lib64/libcuda.so.1

sudo ldconfig # 刷新动态链接库缓存

2.3.2 国密协议启用（OpenMPI 国密版）

若使用分布式部署，需配置国密通信：

# 编辑环境变量配置文件

sudo vi /etc/profile.d/ucx.sh

# 添加以下内容

export OMPI_MCA_btl_openib_allow_ib=1

export OMPI_MCA_pml="ucx"

export UCX_TLS="sm4,cuda_copy,gdr_copy" # 启用SM4加密

export UCX_SOCKADDR_CM_ENABLE=y # 启用SM2密钥协商

# 生效配置

source /etc/profile.d/ucx.sh

3 基础实操

3.1 环境准备（2 台服务器示例）

服务器 IP	操作系统	角色	硬件要求
10.0.1.35	银河麒麟 V10 SP1	Prometheus1、Thanos Sidecar1、MinIO、Grafana、Compactor	8 核 16G，500G 硬盘
10.0.1.36	统信 UOS V20	Prometheus2、Thanos Sidecar2、Thanos Query2、Alertmanager2	8 核 16G，500G 硬盘

3.1.1 基础依赖安装（所有节点执行）

# 银河麒麟V10

sudo yum install -y docker docker-compose wget curl libselinux-utils

# 统信UOS

sudo apt update && sudo apt install -y docker docker-compose wget curl

# 启动Docker并设置开机自启

sudo systemctl enable --now docker

sudo systemctl status docker # 验证Docker是否启动成功

# 关闭防火墙（测试环境，生产环境需配置端口放行）

sudo systemctl stop firewalld && sudo systemctl disable firewalld

3.1.2 国产 Exporter 安装（所有节点执行）

# 安装Node Exporter（服务器指标）

cd /opt && wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz

tar xf node_exporter-1.6.1.linux-amd64.tar.gz

sudo mv node_exporter-1.6.1.linux-amd64/node_exporter /usr/local/bin/

# 配置systemd服务

sudo cat > /etc/systemd/system/node_exporter.service <'

[Unit]

Description=Node Exporter

After=network.target

[Service]

Type=simple

ExecStart=/usr/local/bin/node_exporter

Restart=on-failure

[Install]

WantedBy=multi-user.target

EOF

# 启动Node Exporter

sudo systemctl daemon-reload && sudo systemctl enable --now node_exporter

sudo systemctl status node_exporter # 验证，默认端口9100

# 安装国产GPU Exporter（以昇腾为例）

sudo yum install -y ascend-exporter

sudo systemctl enable --now ascend-exporter

sudo systemctl status ascend-exporter # 验证，默认端口9200

3.2 MinIO 部署（10.0.1.35 执行）

MinIO 是国产友好的对象存储，用于存储 Thanos 长期数据：

# 1. 创建数据目录

sudo mkdir -p /data/minio

# 2. 编写docker-compose.yml

sudo cat > /opt/minio/docker-compose.yml <EOF'

version: '3'

services:

minio:

image: minio/minio:latest

container_name: minio

restart: always

ports:

- "9000:9000" # 存储服务端口

- "9001:9001" # 管理界面端口

environment:

- MINIO_ROOT_USER=admin # 管理员账号

- MINIO_ROOT_PASSWORD=admin123456 # 管理员密码

volumes:

- /data/minio:/data

command: server /data --console-address ":9001"

EOF

# 3. 启动MinIO

cd /opt/minio && sudo docker-compose up -d

# 4. 验证访问

# 浏览器打开 http://10.0.1.35:9001，使用账号admin/admin123456登录

# 创建存储桶：点击"Create a Bucket"，名称输入"prometheus-data"，点击创建

3.3 Prometheus + Thanos 部署（两台服务器分别执行）

3.3.1 10.0.1.35 节点部署

# 1. 创建工作目录

sudo mkdir -p /opt/prometheus/{conf,data}

sudo mkdir -p /opt/thanos/{conf,data}

# 2. 编写Prometheus配置文件

sudo cat > /opt/prometheus/conf/prometheus.yml <EOF'

global:

scrape_interval: 15s

evaluation_interval: 15s

storage_config:

tsdb:

path: /data

retention_time: 15d

scrape_configs:

- job_name: "prometheus"

static_configs:

- targets: ["localhost:9090"]

- job_name: "node"

static_configs:

- targets: ["10.0.1.35:9100", "10.0.1.36:9100"]

- job_name: "ascend-gpu"

static_configs:

- targets: ["10.0.1.35:9200", "10.0.1.36:9200"]

remote_write:

- url: "http://thanos-sidecar:10908/api/v1/receive"

EOF

# 3. 编写Thanos存储配置

sudo cat > /opt/thanos/conf/storage.yaml <EOF'

type: s3

config:

bucket: "prometheus-data"

endpoint: "10.0.1.35:9000"

access_key: "admin"

secret_key: "admin123456"

insecure: true

signature_version2: true

EOF

# 4. 编写docker-compose.yml

sudo cat > /opt/prometheus/docker-compose.yml <version: '3'

services:

prometheus:

image: prom/prometheus:v2.45.0

container_name: prometheus

restart: always

ports:

- "9090:9090"

volumes:

- /opt/prometheus/conf/prometheus.yml:/etc/prometheus/prometheus.yml

- /opt/prometheus/data:/data

command:

- --config.file=/etc/prometheus/prometheus.yml

- --storage.tsdb.path=/data

- --web.enable-lifecycle

thanos-sidecar:

image: thanosio/thanos:v0.32.5

container_name: thanos-sidecar

restart: always

ports:

- "10901:10901"

volumes:

- /opt/thanos/conf/storage.yaml:/etc/thanos/storage.yaml

command:

- sidecar

- --prometheus.url=http://prometheus:9090

- --tsdb.path=/prometheus-data

- --objstore.config-file=/etc/thanos/storage.yaml

depends_on:

- prometheus

thanos-query:

image: thanosio/thanos:v0.32.5

container_name: thanos-query

restart: always

ports:

- "10902:10902"

command:

- query

- --http-address=0.0.0.0:10902

- --store=10.0.1.35:10901

- --store=10.0.1.36:10901

thanos-compactor:

image: thanosio/thanos:v0.32.5

container_name: thanos-compactor

restart: always

volumes:

- /opt/thanos/conf/storage.yaml:/etc/thanos/storage.yaml

- /opt/thanos/data:/data

command:

- compact

- --objstore.config-file=/etc/thanos/storage.yaml

- --data-dir=/data

- --retention.resolution-raw=30d

- --retention.resolution-5m=90d

- --retention.resolution-1h=1y

alertmanager:

image: prom/alertmanager:v0.26.0

container_name: alertmanager

restart: always

ports:

- "9093:9093"

volumes:

- /opt/prometheus/conf/alertmanager.yml:/etc/alertmanager/alertmanager.yml

command:

- --config.file=/etc/alertmanager/alertmanager.yml

- --storage.path=/data

- --cluster.listen-address=0.0.0.0:9094

- --cluster.advertise-address=10.0.1.35:9094

- --cluster.peer=10.0.1.36:9094

prometheus-webhook-dingtalk:

image: timonwong/prometheus-webhook-dingtalk:v2.1.0

container_name: dingtalk-webhook

restart: always

ports:

- "8060:8060"

command:

- --ding.profile=webhook1=https://oapi.dingtalk.com/robot/send?access_token=你的钉钉机器人token

grafana:

image: grafana/grafana:10.2.0

container_name: grafana

restart: always

ports:

- "3000:3000"

volumes:

- /opt/grafana/data:/var/lib/grafana

environment:

- GF_SECURITY_ADMIN_USER=admin

- GF_SECURITY_ADMIN_PASSWORD=admin123456

EOF

# 5. 启动服务

cd /opt/prometheus && sudo docker-compose up -d

3.3.2 10.0.1.36 节点部署

# 1. 创建工作目录

sudo mkdir -p /opt/prometheus/{conf,data}

sudo mkdir -p /opt/thanos/conf

# 2. 复制3.3.1中的prometheus.yml和storage.yaml到对应目录

# （注意：prometheus.yml中的targets保持不变，storage.yaml中的endpoint仍为10.0.1.35:9000）

# 3. 编写docker-compose.yml（无Compactor、Grafana、MinIO）

sudo cat > /opt/prometheus/docker-compose.yml <EOF'

version: '3'

services:

prometheus:

image: prom/prometheus:v2.45.0

container_name: prometheus

restart: always

ports:

- "9090:9090"

volumes:

- /opt/prometheus/conf/prometheus.yml:/etc/prometheus/prometheus.yml

- /opt/prometheus/data:/data

command:

- --config.file=/etc/prometheus/prometheus.yml

- --storage.tsdb.path=/data

- --web.enable-lifecycle

thanos-sidecar:

image: thanosio/thanos:v0.32.5

container_name: thanos-sidecar

restart: always

ports:

- "10901:10901"

volumes:

- /opt/thanos/conf/storage.yaml:/etc/thanos/storage.yaml

command:

- sidecar

- --prometheus.url=http://prometheus:9090

- --tsdb.path=/prometheus-data

- --objstore.config-file=/etc/thanos/storage.yaml

depends_on:

- prometheus

thanos-query:

image: thanosio/thanos:v0.32.5

container_name: thanos-query

restart: always

ports:

- "10902:10902"

command:

- query

- --http-address=0.0.0.0:10902

- --store=10.0.1.35:10901

- --store=10.0.1.36:10901

alertmanager:

image: prom/alertmanager:v0.26.0

container_name: alertmanager

restart: always

ports:

- "9093:9093"

volumes:

- /opt/prometheus/conf/alertmanager.yml:/etc/alertmanager/alertmanager.yml

command:

- --config.file=/etc/alertmanager/alertmanager.yml

- --storage.path=/data

- --cluster.listen-address=0.0.0.0:9094

- --cluster.advertise-address=10.0.1.36:9094

- --cluster.peer=10.0.1.35:9094

EOF

# 4. 启动服务

cd /opt/prometheus && sudo docker-compose up -d

3.4 部署验证

# 1. 检查所有容器状态（两台节点均执行）

sudo docker ps -a # 确保所有容器状态为Up

# 2. 访问Prometheus UI

# 浏览器打开 http://10.0.1.35:9090 和 http://10.0.1.36:9090

# 点击"Status" → "Targets"，确认所有target状态为"UP"

# 3. 访问Thanos Query

# 浏览器打开 http://10.0.1.35:10902，点击"Stores"，确认两个Thanos Sidecar均在线

# 4. 访问Grafana

# 浏览器打开 http://10.0.1.35:3000，使用admin/admin123456登录

# 添加数据源：Configuration → Data Sources → Add data source → 选择Prometheus

# URL填写 http://thanos-query:10902，点击"Save & Test"，显示Success即可

4 高阶用法

4.1 自定义监控规则配置

4.1.1 创建告警规则文件

# 在10.0.1.35节点执行

sudo cat > /opt/prometheus/conf/alert_rules.yml <:

- name: 服务器监控告警

rules:

# CPU使用率告警

- alert: CPU使用率过高

expr: avg(rate(node_cpu_seconds_total{mode!="idle"}[5m])) by (instance) > 0.8

for: 5m

labels:

severity: critical

annotations:

summary: "服务器{{ $labels.instance }} CPU使用率过高"

description: "CPU使用率已持续5分钟超过80%，当前值：{{ $value | humanizePercentage }}"

# 内存使用率告警

- alert: 内存使用率过高

expr: (node_memory_used_bytes / node_memory_total_bytes) > 0.85

for: 5m

labels:

severity: warning

annotations:

summary: "服务器{{ $labels.instance }} 内存使用率过高"

description: "内存使用率已持续5分钟超过85%，当前值：{{ $value | humanizePercentage }}"

# 国产GPU使用率告警

- alert: 昇腾GPU使用率过高

expr: ascend_gpu_utilization > 90

for: 3m

labels:

severity: critical

annotations:

summary: "服务器{{ $labels.instance }} 昇腾GPU使用率过高"

description: "GPU使用率已持续3分钟超过90%，当前值：{{ $value }}%"

EOF

4.1.2 关联到 Prometheus 配置

# 编辑prometheus.yml，添加以下内容

rule_files:

- "alert_rules.yml" # 相对路径，对应容器内/etc/prometheus/alert_rules.yml

# 重启Prometheus

sudo docker restart prometheus

4.2 长期数据管理优化

4.2.1 Thanos 压缩策略调整

# 修改thanos-compactor的command参数

command:

- compact

- --objstore.config-file=/etc/thanos/storage.yaml

- --data-dir=/data

- --retention.resolution-raw=7d # 原始数据保留7天

- --retention.resolution-5m=30d # 5分钟聚合数据保留30天

- --retention.resolution-1h=180d # 1小时聚合数据保留180天

- --compact.concurrency=4 # 压缩并发数，根据CPU核心数调整

4.2.2 MinIO 数据备份

# 创建MinIO备份脚本

sudo cat > /opt/minio/backup.sh <

#!/bin/bash

BACKUP_DIR="/data/minio_backup"

DATE=$(date +%Y%m%d)

mkdir -p $BACKUP_DIR

# 备份存储桶数据

docker run --rm -v $BACKUP_DIR:/backup -v /opt/minio/conf:/root/.minio minio/mc:latest \

mc cp --recursive minio/prometheus-data /backup/prometheus-data-$DATE

# 删除7天前的备份

find $BACKUP_DIR -name "prometheus-data-*" -type d -mtime +7 -delete

EOF

# 添加执行权限并设置定时任务

sudo chmod +x /opt/minio/backup.sh

sudo crontab -e

# 添加以下内容（每天凌晨2点执行备份）

0 2 * * * /opt/minio/backup.sh

4.3 信创环境性能优化

4.3.1 国产 CPU 调度优化

# 编辑Prometheus的docker-compose.yml，添加CPU亲和性配置

services:

prometheus:

# 其他配置不变

deploy:

resources:

limits:

cpus: '4' # 限制使用4个CPU核心

reservations:

cpus: '2' # 预留2个CPU核心

environment:

- GODEBUG=madvdontneed=1 # 优化Go语言内存管理，适配国产CPU

4.3.2 采集间隔动态调整

# 针对不同类型指标设置不同采集间隔

scrape_configs:

- job_name: "node"

scrape_interval: 10s # 服务器指标采集间隔10s

static_configs:

- targets: ["10.0.1.35:9100", "10.0.1.36:9100"]

- job_name: "ascend-gpu"

scrape_interval: 5s # GPU指标采集间隔5s（实时性要求高）

static_configs:

- targets: ["10.0.1.35:9200", "10.0.1.36:9200"]

- job_name: "application"

scrape_interval: 30s # 应用指标采集间隔30s（变化较慢）

static_configs:

- targets: ["10.0.1.35:8080", "10.0.1.36:8080"]

5 拓展建议

5.1 运维监控优化

5.1.1 日志收集

部署 ELK（Elasticsearch+Logstash+Kibana）或国产日志系统（如日志易），收集 Prometheus、Thanos、Alertmanager 日志，便于故障排查：

# 示例：为Prometheus添加日志输出配置（修改docker-compose.yml）

services:

prometheus:

command:

- --config.file=/etc/prometheus/prometheus.yml

- --storage.tsdb.path=/data

- --web.enable-lifecycle

- --log.level=info # 日志级别

- --log.format=json # 日志格式为JSON，便于解析

5.1.2 系统监控

在 Grafana 中导入国产服务器监控模板（ID：1860，Node Exporter 模板）和 GPU 监控模板，实现可视化监控：

Grafana 登录后，点击 "+" → "Import"
输入模板 ID（如 1860），点击 "Load"
选择数据源（Prometheus），点击 "Import"
即可看到服务器 CPU、内存、磁盘、网络等指标图表

5.2 安全加固

5.2.1 访问控制

为 Prometheus、Grafana、MinIO 设置访问权限：

# 1. Grafana修改密码（首次登录后）

# 点击头像 → "Change password"，设置强密码

# 2. MinIO创建只读用户

# 登录MinIO管理界面 → "Identity" → "Users" → "Create user"

# 用户名：prometheus-read，密码：StrongPassword123!

# 权限设置为"readonly"，仅授予prometheus-data存储桶访问权限

# 3. Prometheus启用Basic Auth

# 安装htpasswd工具

sudo yum install -y httpd-tools

# 创建密码文件

sudo htpasswd -c /opt/prometheus/conf/htpasswd prometheus

# 输入密码（如Prom@2026）

# 修改docker-compose.yml，添加认证配置

services:

prometheus:

command:

- --config.file=/etc/prometheus/prometheus.yml

- --storage.tsdb.path=/data

- --web.enable-lifecycle

- --web.config.file=/etc/prometheus/web.yml

volumes:

- /opt/prometheus/conf/web.yml:/etc/prometheus/web.yml

- /opt/prometheus/conf/htpasswd:/etc/prometheus/htpasswd

# 创建web.yml配置文件

sudo cat > /opt/prometheus/conf/web.yml <'

basic_auth_users:

prometheus: $(cat /etc/prometheus/htpasswd | grep prometheus | awk '{print $2}')

EOF

5.2.2 传输加密

启用 HTTPS 加密传输（生产环境必配）：

# 1. 生成自签名证书（测试环境，生产环境使用CA证书）

sudo openssl req -x509 -nodes -days 365 -newkey rsa:2048 \

-keyout /opt/prometheus/conf/prometheus.key \

-out /opt/prometheus/conf/prometheus.crt \

-subj "/C=CN/ST=Beijing/L=Beijing/O=Xinchuang/CN=prometheus-server"

# 2. 修改Prometheus配置（web.yml）

sudo cat > /opt/prometheus/conf/web.yml <EOF'

tls_server_config:

cert_file: /etc/prometheus/prometheus.crt

key_file: /etc/prometheus/prometheus.key

basic_auth_users:

prometheus: $(cat /etc/prometheus/htpasswd | grep prometheus | awk '{print $2}')

EOF

# 3. 重启Prometheus

sudo docker restart prometheus

5.3 信创生态拓展

5.3.1 国产数据库适配

若需将 Prometheus 数据存储到国产数据库（如人大金仓、达梦），可通过 Remote Write 接口实现：

# 修改prometheus.yml

remote_write:

- url: "http://国产数据库适配器:8080/write" # 数据库适配层接口

write_relabel_configs:

- source_labels: [__name__]

regex: '^node_.*$' # 仅同步节点相关指标

action: keep

5.3.2 国产化监控工具集成

集成国产运维平台（如嘉为蓝鲸），实现统一运维管理：

在嘉为蓝鲸平台添加 Prometheus 数据源
配置告警转发，将 Prometheus 告警同步到蓝鲸平台
利用蓝鲸的根因分析功能，提升故障排查效率

5.4 常见问题排查

5.4.1 容器启动失败

# 查看容器日志

sudo docker logs 容器名称（如prometheus）

# 常见原因及解决：

1. 端口占用：使用netstat -tulpn | grep 端口号，找到占用进程并停止

2. 配置文件错误：检查yaml文件缩进，使用yamllint工具验证

3. 目录权限：给数据目录授权，sudo chmod 777 /opt/prometheus/data

5.4.2 指标采集失败

检查 Exporter 是否正常运行：sudo systemctl status node_exporter
检查网络连通性：telnet 目标 IP 端口（如 telnet 10.0.1.36 9100）
检查防火墙端口放行：sudo firewall-cmd --list-ports（若未关闭防火墙）

5.4.3 告警未触发

检查告警规则是否正确：Prometheus UI → "Alerts"，查看规则状态
检查 Alertmanager 是否正常：http://IP:9093/#/alerts
检查钉钉机器人 token 是否正确：重新配置 webhook 地址

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

【CANN】Pi0机器人大模型 × 昇腾A2 测评

鲲鹏昇腾开发者社区

【k8s】arm架构Ubuntu、欧拉从零开始部署k8s1.34.5

鲲鹏昇腾开发者社区

深入浅出：全面解读AI算力——从核心概念到实际评估

鲲鹏昇腾开发者社区

所有评论(0)

查看更多评论

倔强的胖蚂蚁

@weixin_49109647

已为社区贡献1条内容