昇腾mis-tei服务化部署（embedding、reranker）

本文介绍了在华为Ascend环境下部署BGE-M3文本嵌入和重排序模型的方法。首先通过Docker容器环境配置NPU设备映射和路径挂载，然后启动embedding和rerank两个服务，分别监听不同端口。若模型自动下载失败，可使用魔塔平台手动下载。最后提供了curl命令测试接口，支持文本向量化和相关性排序功能。整个部署过程针对华为昇腾AI处理器进行了优化配置。

windy布兰

466人浏览 · 2025-11-03 15:31:47

windy布兰 · 2025-11-03 15:31:47 发布

1 容器

官方镜像：mis-tei

docker run -itd --name=tei --net=host -u root \
--ipc=host \
--privileged \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /var/log/npu/:/usr/slog \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/toolbox:/usr/local/Ascend/toolbox \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /weight:/home/HwHiAiUser/model \
--entrypoint bash \
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.1.RC1-800I-A2-aarch64

进入容器

docker exec -it tei bash

2 起服务

# 指定卡
export ASCEND_RT_VISIBLE_DEVICES="1"
# 服务
# embedding模型
bash start.sh BAAI/bge-m3 0.0.0.0 8081
# rerank模型
bash start.sh BAAI/bge-reranker-v2-m3 0.0.0.0 8082
# 模型权重会自动下载

# 后台服务挂起
# nohup bash start.sh BAAI/bge-m3 0.0.0.0 8081 > embedding_output.log 2>&1 &
# nohup bash start.sh BAAI/bge-reranker-v2-m3 0.0.0.0 8082 > rerank_output.log 2>&1 &

0.0.0.0 服务ip

8081 服务端口

若模型自动下载失败，可用魔搭下载

# 安装
pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple
# 下载
modelscope download --model BAAI/bge-m3 --local_dir /home/HwHiAiUser/model/bge-m3

modelscope download --model BAAI/bge-reranker-v2-m3 --local_dir /home/HwHiAiUser/model/bge-reranker-v2-m3

3 测试

# embedding 测试
curl 0.0.0.0:8081/embed \
    -X POST \
    -d '{"inputs":"What is Deep Learning?"}' \
    -H 'Content-Type: application/json'
    
# rerank测试
curl 0.0.0.0:8082/rerank \
    -X POST \
    -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
    -H 'Content-Type: application/json'