意琦行的个人博客

关注微信公众号【探索云原生】一起探索云原生~

月之暗面最强模型 Kimi-K2.6 正式开源 —— 附 VLLM 部署实战

意琦行发布于 2026-04-22 20:00:00 收录于 AI

deploy-kimi-k2.6-by-vllm.jpeg

Kimi-K2.6 是 Moonshot AI 在 4 月 20 日正式发布并开源的旗舰大语言模型，具备强大的长上下文推理、多模态理解和工具调用能力。本文将详细介绍如何使用 vLLM 部署 Kimi-K2.6 模型，并附上性能基准测试。

搭建你的 AI 模型服务平台：这个开源项目帮你搞定聚合、计费、运营

意琦行发布于 2026-04-15 20:00:00 收录于 AI

你是否遇到过这样的困扰：手头有 OpenAI、Claude、本地部署的多个 AI 模型：

每个都要单独管理 API Key；
团队成员都在用，却无法追踪谁用了多少、花了多少钱；
想把这些能力开放给外部用户并收费，却苦于没有现成的计费系统？

New API 就是来解决这些问题的。

New API 是什么？

Next-Generation LLM Gateway and AI Asset Management System

New API 是新一代 AI 基座平台，为您的 AI 应用提供统一的基础设施。承载所有 AI 应用，管理您的数字资产，连接未来的统一接口平台。

核心特性：

统一接口：一个 API 端点接入所有 AI 服务，兼容 OpenAI 标准格式
智能路由：多渠道负载均衡、故障自动切换、加权随机分发
精细计费：支持按次数/按量计费、预付费充值、多倍率配置
安全管控：令牌权限管理、模型访问控制、API 调用审计
数据洞察：实时数据看板、用量统计、成本分析
多租户架构：完美适配个人开发者、团队协作与企业级部署

技术架构：

LiteLLM：打造统一 AI 网关

意琦行发布于 2026-04-07 20:00:00 收录于 AI

为什么需要 LiteLLM？

当你在使用多个 AI 模型时，会遇到这些问题：

每个 Provider 的 API 格式不同，需要维护多套代码
无法统一监控所有模型的调用情况和成本
切换模型需要修改业务代码

LiteLLM 通过统一的 OpenAI 兼容接口解决了这些问题，让你只需修改 model 参数就能切换模型。

核心功能：

统一接口：一套 API 调用 OpenAI、Azure、Anthropic、Google 等多家模型
成本追踪：实时监控各模型的使用量和成本
负载均衡：自动在多个模型间分配请求
速率限制：防止 API 滥用和成本失控

LiteLLM 作为统一网关，接收所有客户端请求，然后根据 model 参数自动路由到对应的后端模型服务。无论是本地部署的 vLLM，还是云端 API（OpenAI、Claude 等），都可以通过同一套接口调用。

本文将介绍如何在 Kubernetes 环境中部署 LiteLLM，并配置 PostgreSQL 作为数据库。

Qwen3.5 选型 + VLLM 部署实战：从 0.8B 到 397B，哪款最适合你？

意琦行发布于 2026-03-30 20:00:00 收录于 AI

deploy-qwen3.5-by-vllm.jpeg

Qwen3.5 是阿里云最新开源的大语言模型系列，提供了从 0.8B 到 397B 的多种规格，在推理能力和效率之间取得了良好平衡。

面对如此丰富的模型规格，该如何选择？本文将首先分析各规格模型的特点和适用场景，帮助你找到最适合的那一款，然后介绍如何使用 vLLM 在 Kubernetes 环境中部署 Qwen3.5 模型。

根据各大榜单排名以及实测表现，Qwen3.5 系列在性能和质量的权衡上表现出色。

VLLM 部署 GLM-5 实践指南

意琦行发布于 2026-03-25 20:00:00 收录于 AI

GLM-5 是智谱 AI 最新发布的大语言模型，具备强大的推理能力和工具调用能力。本文将详细介绍如何使用 vLLM 框架在生产环境中部署 GLM-5 模型。

根据各大榜单排名以及实测表现，GLM-5 在多项评测中表现出色，是当前开源模型中的佼佼者。

本文涵盖以下内容：

模型下载：FP8 和 INT4 两种量化版本
镜像构建：构建支持 GLM-5 的 vLLM 镜像
Docker 部署：INT4 版本快速部署
性能测试：INT4 版本基准测试

Claude Code 也能跑本地模型？CCR 多模型智能路由，成本直降 90%

意琦行发布于 2026-03-18 20:00:00 收录于 AI

Claude Code 是 Anthropic 推出的强大 AI 编程助手，但每月的订阅费用让很多开发者望而却步。

通过 Claude Code Router (CCR)，我们可以：

对接本地模型：部署 GLM5 等开源模型，实现零成本使用
多模型智能路由：根据任务类型自动选择最合适的模型
灵活组合：本地 + 云端混合部署，兼顾隐私、成本和质量

本文将手把手教你搭建这套方案，让你的 AI 编程助手成本降低 90% 以上。