DeepSeek本地化部署实践：Xinference框架+OpenWebUI实现DeepSeek-r1推理跑在国产GPU之上

sz_bobw

3486人浏览 · 2025-03-24 15:38:24

sz_bobw · 2025-03-24 15:38:24 发布

近日，我部门从供应商那儿借来一台高算力服务器，用来尝试本地化部署DeepSeek。该服务器型号为ASUS ESC8000A-E11，具体配置如下：

CPU：AMD EPYC 7702（64核）* 2

GPU：（天数智芯）智凯100 * 8

RAM：512G

HDD：n/a

SSD：1T

以下是具体安装步骤：

1. 操作系统安装

操作系统选择的是openEuler 22.03 (LTS-SP3)，其内核版本为5.10.0；未选择最新版本的openEuler的原因是因为在安装GPU厂商提供的驱动时对linux内核版本有限制，具体哪些内核版本符合要求需参考GPU厂商的技术文档。

# uname -r
5.10.0-182.0.0.95.oe2203sp3.x86_64

配置主机IP为：172.19.250.1/24

2. 安装GPU驱动

从GPU厂商那儿获得以下2个文件：

partial_install_cuda_header.zip

corex-installer-linux64-4.2.0_x86_64_10.2.run

2.1 安装CUDA头文件

# unzip partial_install_cuda_header.zip

# cd partial_install_cuda_header/

# bash install-cuda-header.sh

2.2 安装(corex)gpu驱动

# bash corex-installer-linux64-4.2.0_x86_64_10.2.run

第一步，输入 accept , 回车（同意EULA继续）

第二步，同时选上 "Driver" 和 "Toolkit" 组件后，继续安装

安装之后，export环境变量如下：

# export LD_LIBRARY_PATH=/usr/local/corex-4.2.0/lib:$LD_LIBRARY_PATH

# export PATH=/usr/local/corex-4.2.0/bin:$PATH

2.3 输入以下命令，检查一下gpu驱动及工具是否正确安装上了：

# ixsmi

正确安装的情况下，输出如下：

3. 安装Xinference框架

3.1 安装Xinference

此处，我们完全参考了以下博文

有道云笔记

来安装Xinference框架的。

进入容器，执行bash startup.sh启动Xinference服务。

打开浏览器，输入下面地址进入图形界面启动模型

http://172.19.250.1:9997/ui/

如下：

3.2 启动模型

点按左侧导航栏的"启动模型"，在右侧"语言模型"下"搜索模型名称和描述"栏内，输入"deepseek-r1"进行过滤，如下：

点击靠左侧的"deepseek-r1-distill-llama"模型，在弹出窗口中做如下配置：

最后，点按左下的小火箭图标，等待Xinference框架下载、启动deepseek-r1-distill-llama

3.3 检查正在运行的模型

经过漫长的等待，上图中的小火箭图标“嗖”的一下发射了，说明咱们的模型已经在本地跑起来了。

点按左侧导航栏的"运行模型"，此时页面显示如下：

4. 安装open-webui，提供相对友好的对话接口

4.1 安装open-webui

# conda create -n webui python=3.11

# conda activate webui

(webui) [root@deepseek ~]# git clone https://github.com/open-webui/open-webui.git

(webui) [root@deepseek ~]# cd open-webui

(webui) [root@deepseek ~]# pip install -r backend/requirements.txt

(webui) [root@deepseek ~]# pip install open-webui

4.2 启动open-webui

(webui) [root@deepseek ~]# nohup open-webui serve > /dev/null &

4.3 对接Xinference框架

打开浏览器，访问open-webui

http://172.19.250.1:8080/

注册第一个用户，即为系统管理员。

进入管理员面板，修改OpenAI API连接为本机的Xinference接口(全面兼容OpenAI API)：

下一步，还需要修改当前模型的属性为public（对普通用户可见）：

至此，咱们就可以跟本地化部署的deepseek进行对话了：

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

【CANN】-npugraph_ex 图编译加速入门

npugraph_ex = 昇腾 CANN 给 torch.compile 做的后端, 一行代码让 Qwen3-0.6B 推理加速 2-3 倍. 原理: 把"一个算子一个算子排队执行"(Eager 模式) 改成"一次提交整图"(图模式), 消除调度空泡 + 提升并行度.三个关键事实2 个慢因, 1 行解决: Eager 模式有"调度空泡 + 低并行" 2 大问题, npugraph_ex 一行同时

鲲鹏昇腾开发者社区

【市场】数字孪生国内厂家排行：中国企业排名

2026年中国数字孪生企业排行榜显示，51WORLD凭借空间智能平台51Aes和物理仿真系统51Sim位居榜首，在智慧城市、交通管理等领域表现突出；华为依靠昇腾AI和盘古大模型在矿山、港口等工业场景取得突破；百度智能云以文心大模型和Apollo能力聚焦智能交通。阿里云、腾讯云分别通过城市大脑和工业数字化平台布局该领域，商汤科技则专注计算机视觉应用。飞渡科技、宇树科技等企业虽具体项目待核实，但均展现