在 Kubernetes 上部署 llama3
Ollama 与 OpenWebUI 介绍
Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 API。
OpenWebUI 是一个大模型的 Web UI 交互工具,支持 Ollama,即调用 Ollama 暴露的 API 实现与大模型交互:
部署方案选型
OpenWebUI
的仓库中自带 Ollawma
+ OpenWebUI
的部署方式,主要是 kustomize
和 helm
这两种方式,参考 open-webui 仓库的 kubernetes 目录。
但我更推荐直接写 YAML 进行部署,原因如下:
Ollama
+OpenWebUI
所需 YAML 相对较少,直接根据需要写 YAML 更直接和灵活。- 不需要研究
OpenWebUI
提供的kustomize
和helm
方式的用法。
选择模型
Llama3 目前主要有 8b
和 70b
两个模型,分别对应 80 亿和 700 亿规模的参数模型,CPU 和 GPU 都支持,8b
是小模型,对配置要求不高,一般处于成本考虑,可以直接使用 CPU 运行,而 70b
则是大模型, CPU 肯定吃不消,GPU 的配置低也几乎跑不起来,主要是显存要大才行,经实测,24G 显存跑起来会非常非常慢,32G 的也有点吃力,40G 的相对流畅(比如 Nvdia A100)。
准备 Namespace
准备一个 namespace,用于部署运行 llama3 所需的服务,这里使用 llama
namespace:
kubectl create ns llama
部署 Ollama
apiVersion: apps/v1
kind: StatefulSet
metadata:
name: ollama
namespace: llama
spec:
serviceName: "ollama"
replicas: 1
selector:
matchLabels:
app: ollama
template:
metadata:
labels:
app: ollama
spec:
containers:
- name: ollama
image: ollama/ollama:latest
ports:
- containerPort: 11434
resources:
requests:
cpu: "2000m"
memory: "2Gi"
nvidia.com/gpu: "0" # 如果要用 Nvidia GPU,这里声明下 GPU 卡
limits:
cpu: "4000m"
memory: "4Gi"
volumeMounts:
- name: ollama-volume
mountPath: /root/.ollama
tty: true
volumeClaimTemplates:
- metadata:
name: ollama-volume
spec:
accessModes: ["ReadWriteOnce"]
resources:
requests:
storage: 200Gi # 注意要确保磁盘容量能够容纳得下模型的体积
---
apiVersion: v1
kind: Service
metadata:
name: ollama
namespace: llama
labels:
app: ollama
spec:
type: ClusterIP
ports:
- port: 11434
protocol: TCP
targetPort: 11434
selector:
app: ollama
部署 OpenWebUI
OpenWebUI
是大模型的 web 界面,支持 llama 系列的大模型,通过 API 与 ollama 通信,官方镜像地址是:ghcr.io/open-webui/open-webui
,在国内拉取速度非常慢,如果你的环境有 DockerHub 加速,可以替换成 DockerHub 里长期自动同步的 mirror 镜像:docker.io/imroc/open-webui
:
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: webui-pvc
namespace: llama
labels:
app: webui
spec:
accessModes: ["ReadWriteOnce"]
resources:
requests:
storage: 2Gi
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: webui
namespace: llama
spec:
replicas: 1
selector:
matchLabels:
app: webui
template:
metadata:
labels:
app: webui
spec:
containers:
- name: webui
image: imroc/open-webui:main # docker hub 中的 mirror 镜像,长期自动同步,可放心使用
env:
- name: OLLAMA_BASE_URL
value: http://ollama:11434 # ollama 的地址
tty: true
ports:
- containerPort: 8080
resources:
requests:
cpu: "500m"
memory: "500Mi"
limits:
cpu: "1000m"
memory: "1Gi"
volumeMounts:
- name: webui-volume
mountPath: /app/backend/data
volumes:
- name: webui-volume
persistentVolumeClaim:
claimName: webui-pvc
---
apiVersion: v1
kind: Service
metadata:
name: webui
namespace: llama
labels:
app: webui
spec:
type: ClusterIP
ports:
- port: 8080
protocol: TCP
targetPort: 8080
selector:
app: webui
打开 OpenWebUI
你有很多方式可以将 OpenWebUI
暴露给集群外访问,比如 LoadBalancer
类型 Service
、Ingress
等,也可以直接用 kubectl port-forward
的方式将 webui 暴露到本地:
kubectl -n llama port-forward service/webui 8080:8080
浏览器打开:http://localhost:8080
,首次打开需要创建账号,第一个创建的账号为管理员账号。
下载模型
方法一:通过 OpenWebUI 下载
进入 OpenWebUI
并登录后,在 设置-模型
里,输出需要下载的 llama3
模型并点击下载按钮(除 了基础的模型,还有许多微调的模型,参考 llama3 可用模型列表)。
接下来就是等待下载完成:
如果页面关闭,下载会中断,可重新打开页面并重新输入要下载的模型进行下载,会自动断点续传。
方法二:执行 ollama pull 下载
进入 ollama 的 pod:
kubectl -n llama exec -it ollama-0 bash
执行 ollama pull
下载需要的模型,这里以下载 70b
模型为例:
ollama pull llama3:70b
等待下载完成。
如果 kubectl
的连接中断,下载也会中断,可重新执行命令断点续传。
你也可以使用 nohup ollama pull llama3:70b &
来下载,通过 tail -f nohup.out
查看下载进度,这样可以保证即使 kubectl 中断或退出也会继续下载。
方案三:使用 init container 自动下载模型
如果不想每次在新的地方部署需要手动下载模型,可以修改 Ollama 的部署 YAML,加个 initContainer
来实现自动下载模型(自动检测所需模型是否存 在,不存在才自动下载):
- initContainer 写法
- 完整配置
initContainers:
- name: pull
image: ollama/ollama:latest
tty: true
stdin: true
command:
- bash
- -c
- |
model="llama3:8b" # 替换需要使用的模型,模型库列表: https://ollama.com/library/llama3
ollama serve &
sleep 5 # 等待 ollama server 就绪,就绪后才能执行 ollama cli 工具的命令
result=`ollama list | grep $model`
if [ "$result" == "" ]; then
echo "downloading model $model"
ollama pull $model
else
echo "model $model already been downloaded"
fi
volumeMounts:
- name: ollama-volume
mountPath: /root/.ollama
apiVersion: apps/v1
kind: StatefulSet
metadata:
name: ollama
namespace: llama
spec:
serviceName: "ollama"
replicas: 1
selector:
matchLabels:
app: ollama
template:
metadata:
labels:
app: ollama
spec:
initContainers:
- name: pull
image: ollama/ollama:latest
tty: true
stdin: true
command:
- bash
- -c
- |
model="llama3:8b" # 替换需要使用的模型,模型库列表: https://ollama.com/library/llama3
ollama serve &
sleep 5 # 等待 ollama server 就绪,就绪后才能执行 ollama cli 工具的命令
result=`ollama list | grep $model`
if [ "$result" == "" ]; then
echo "downloading model $model"
ollama pull $model
else
echo "model $model already been downloaded"
fi
volumeMounts:
- name: ollama-volume
mountPath: /root/.ollama
containers:
- name: ollama
image: ollama/ollama:latest
ports:
- containerPort: 11434
resources:
requests:
cpu: "2000m"
memory: "2Gi"
nvidia.com/gpu: "0" # 如果要用 Nvidia GPU,这里声明下 GPU 卡
limits:
cpu: "4000m"
memory: "4Gi"
volumeMounts:
- name: ollama-volume
mountPath: /root/.ollama
tty: true
volumeClaimTemplates:
- metadata:
name: ollama-volume
spec:
accessModes: ["ReadWriteOnce"]
resources:
requests:
storage: 200Gi # 注意要确保磁盘容量能够容纳得下模型的体积
---
apiVersion: v1
kind: Service
metadata:
name: ollama
namespace: llama
labels:
app: ollama
spec:
type: ClusterIP
ports:
- port: 11434
protocol: TCP
targetPort: 11434
selector:
app: ollama
开始对话
打开 OpenWebUI
页面,选择模型,然后就可以在对话框中开始对话了。
小技巧
GPU 调度策略
对于像 70b
这样的模型,需要较好的 GPU 才能跑起来,如果集群内有多种 GPU 节点,需要加下调度策略,避免分配到较差的 GPU。
比如要调度到显卡型号为 Nvdia Tesla V100
的节点,可以给节点打上 label:
kubectl label node gpu=v100
然后配置下调度策略(高亮部分):
apiVersion: apps/v1
kind: StatefulSet
metadata:
name: ollama
namespace: llama
spec:
serviceName: "ollama"
replicas: 1
selector:
matchLabels:
app: ollama
template:
metadata:
labels:
app: ollama
spec:
nodeSelector:
gpu: v100
containers:
- name: ollama
image: ollama/ollama:latest
ports:
- containerPort: 11434
resources:
requests:
cpu: "2000m"
memory: "2Gi"
nvidia.com/gpu: "4"
limits:
cpu: "4000m"
memory: "4Gi"
volumeMounts:
- name: ollama-volume
mountPath: /root/.ollama
tty: true
volumeClaimTemplates:
- metadata:
name: ollama-volume
spec:
accessModes: ["ReadWriteOnce"]
resources:
requests:
storage: 200Gi
省钱小妙招
- 如果使用云厂商托管的 Kubernetes 集群,且不需要大模型高可用,可以购买竞价实例(Spot),会便宜很多。
- 如果只在部分时间段使用,可以使用定时伸缩,在不需要的时间段将 Ollama 和 OpenWebUI 的副本数自动缩到 0 以停止计费,比如 使用 KEDA 的 Cron 触发器实现定时伸缩。