在 TKE 上部署 AI 大模型
概述
本文介绍如何在 TKE 上部署 AI 大模型,以 DeepSeek-R1
为例,使用 Ollama
、vLLM
或 SGLang
运行大模型并暴露 API,然后使用 OpenWebUI
提供交互界面。
Ollama
提供是 Ollama API,部署架构:
vLLM
和 SGLang
都提供了兼容 OpenAI 的 API,部署架构:
Ollama、vLLM、SGLang 与 OpenWebUI 介绍
- Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 Ollama API,极大的简化了大模型的部署。
- vLLM 与 Ollama 类似,也是一个运行大模型的工具,但它针对推理做了很多优化,提高了模型的运行效率和性能,使得在资源有限的情况下也能高效运行大语言模型,另外,它提供兼容 OpenAI 的 API。
- SGLang 与 vLLM 类似,性能更强,且针对 DeepSeek 做了深度优化,也是 DeepSeek 官方推荐的工具。
- OpenWebUI 是一个大模型的 Web UI 交互工具,支持通过 Ollama 与 OpenAI 两种 API 与大模型交互。