SharpAI:本地小模型正在逼近云端模型的可用区吗?
背景介绍
SharpAI 是一个专注于本地优先 AI 的团队,其产品 Aegis-AI 是一款运行在消费级硬件上的本地化 AI 家庭安全系统。他们发布了 HomeSec-Bench 基准测试,用以评估 LLM 在真实家庭安全场景中的表现。
该基准测试的核心问题是:一个 9B 参数的本地模型,能否在具体垂直领域(家庭安全)达到接近云端顶级模型的效果?
HomeSec-Bench 基准测试概述
测试设计
- 测试数量:96 个 LLM 测试 + 35 个 VLM 测试
- 测试套件:15 个维度
- 测试图片:全部为 AI 生成(无真实用户画面)
- 模型兼容性:任何 OpenAI 兼容端点
测试维度
| 编号 | 套件名称 | 测试数 | 评估内容 |
|---|---|---|---|
| 1 | 上下文预处理 | 6 | 对话去重、系统消息保留 |
| 2 | 主题分类 | 4 | 查询路由到正确领域 |
| 3 | 知识蒸馏 | 5 | 从对话中提取持久化事实 |
| 4 | 事件去重 | 8 | 跨摄像头识别同一人 |
| 5 | 工具使用 | 16 | 正确选择工具和参数 |
| 6 | 聊天与 JSON 合规 | 11 | 人设、JSON 输出、多语言 |
| 7 | 安全分类 | 12 | Normal → Monitor → Suspicious → Critical |
| 8 | 叙事综合 | 4 | 事件日志生成日报 |
| 9 | 提示注入抵抗 | 4 | 角色混淆、提示提取、升级 |
| 10 | 多轮推理 | 4 | 指代消解、时间跨步 |
| 11 | 错误恢复 | 4 | 处理不可能查询、API 错误 |
| 12 | 隐私合规 | 3 | PII 删除、非法监控拒绝 |
| 13 | 告警路由 | 5 | 通道路由、静默时段解析 |
| 14 | 知识注入 | 5 | 使用注入知识个性化响应 |
| 15 | VLM 到告警分类 | 5 | 端到端:VLM 输出 → 紧急度 → 告警分发 |
基准测试结果
完整排行榜
| 排名 | 模型 | 类型 | 通过 | 失败 | 通过率 | 总耗时 |
|---|---|---|---|---|---|---|
| 🥇 1 | GPT-5.4 | ☁️ 云端 | 94 | 2 | 97.9% | 2m 22s |
| 🥈 2 | GPT-5.4-mini | ☁️ 云端 | 92 | 4 | 95.8% | 1m 17s |
| 🥉 3 | Qwen3.5-9B (Q4_K_M) | 🏠 本地 | 90 | 6 | 93.8% | 5m 23s |
| 3 | Qwen3.5-27B (Q4_K_M) | 🏠 本地 | 90 | 6 | 93.8% | 15m 8s |
| 5 | Qwen3.5-122B-MoE (IQ1_M) | 🏠 本地 | 89 | 7 | 92.7% | 8m 26s |
| 5 | GPT-5.4-nano | ☁️ 云端 | 89 | 7 | 92.7% | 1m 34s |
| 7 | Qwen3.5-35B-MoE (Q4_K_L) | 🏠 本地 | 88 | 8 | 91.7% | 3m 30s |
| 8 | GPT-5-mini (2025) | ☁️ 云端 | 60 | 36 | 62.5%* | 7m 38s |
* GPT-5-mini 因 API 拒绝非默认 temperature 值导致大量失败,属于 API 限制而非模型能力问题。
性能对比
首个 Token 时间 (TTFT)
| 模型 | 类型 | TTFT (平均) | TTFT (p95) |
|---|---|---|---|
| Qwen3.5-35B-MoE | 🏠 本地 | 435ms | 673ms |
| GPT-5.4-nano | ☁️ 云端 | 508ms | 990ms |
| GPT-5.4-mini | ☁️ 云端 | 553ms | 805ms |
| GPT-5.4 | ☁️ 云端 | 601ms | 1052ms |
| Qwen3.5-9B | 🏠 本地 | 765ms | 1437ms |
| Qwen3.5-122B-MoE | 🏠 本地 | 1627ms | 2331ms |
| Qwen3.5-27B | 🏠 本地 | 2156ms | 3642ms |
解码速度 (tokens/second)
| 模型 | 类型 | 解码速度 |
|---|---|---|
| GPT-5.4-mini | ☁️ 云端 | 234.5 tok/s |
| GPT-5.4-nano | ☁️ 云端 | 136.4 tok/s |
| GPT-5.4 | ☁️ 云端 | 73.4 tok/s |
| Qwen3.5-35B-MoE | 🏠 本地 | 41.9 tok/s |
| Qwen3.5-9B | 🏠 本地 | 25 tok/s |
| Qwen3.5-122B-MoE | 🏠 本地 | 18 tok/s |
| Qwen3.5-27B | 🏠 本地 | 10 tok/s |
内存占用
| 模型 | GPU 内存 |
|---|---|
| Qwen3.5-35B-MoE | 27.2 GB |
| Qwen3.5-9B | 13.8 GB |
| Qwen3.5-122B-MoE | 40.8 GB |
| Qwen3.5-27B | 24.9 GB |
关键发现分析
1. 官方宣称的亮点
SharpAI 官方强调的核心数据:
- Qwen3.5-9B 在 MacBook Pro M5 上达到 93.8% 通过率
- 与 GPT-5.4 的差距仅为 4.1 个百分点
- 甚至超越了 GPT-5.4-nano 1 个百分点
- 零 API 成本、完全数据隐私
- 仅需 13.8 GB 统一内存
2. 可观察的事实
- 测试环境:MacBook Pro M5 (M5 Pro 芯片,18 核心,64GB 统一内存),macOS 15.3
- 本地推理引擎:llama.cpp (llama-server)
- 测试套件为 SharpAI 自建:HomeSec-Bench v1
- 测试数据为 AI 生成:35 张图片全部为合成数据
- 云端对比仅限 OpenAI:未包含 Claude、Gemini 等竞品
3. 需要保留判断的部分
| 考量因素 | 说明 |
|---|---|
| 基准自建 | HomeSec-Bench 由 SharpAI 自行设计,测试集可能偏向其产品用例 |
| 领域特殊性 | 家庭安全场景是垂直领域,在其他场景(如编程辅助、创意写作)结果未必相同 |
| 测试数据合成 | 全部使用 AI 生成图片,缺少真实家庭环境的复杂性 |
| 模型量化影响 | 各模型使用不同量化方法(Q4_K_M、IQ1_M),量化对精度的影响未单独分析 |
| 对比范围有限 | 仅对比 OpenAI 云端模型,未对比 Claude、Gemini 等主流竞品 |
| 硬件限制 | 仅测试 Apple Silicon,在 NVIDIA GPU 上的表现可能不同 |
我的判断
本地小模型的进步是真实的
Qwen3.5 系列模型在垂直领域任务上的表现确实令人印象深刻。9B 模型能够在资源受限的环境下达到 93.8% 的准确率,说明:
- 量化技术成熟:Q4_K_M 量化在保持性能的同时大幅降低内存需求
- MoE 架构高效:Qwen3.5-35B-MoE 的首个 Token 时间甚至优于所有 OpenAI 云端模型
- 垂直场景友好:在特定领域,本地模型的差距可以被接受
但需理性看待
- 基准可信度:自建基准难免存在优化空间,第三方基准(如 MMLU、HellaSwag)可能有不同结论
- 通用能力差距:云端模型在泛化能力上仍有优势,尤其在未见过的任务上
- 生态完整性:云端模型通常配套更好的工具链和服务,本地模型需要额外维护
适用场景建议
| 场景 | 推荐 |
|---|---|
| 隐私敏感 | ✅ 本地模型 |
| 成本敏感 | ✅ 本地模型 |
| 需要最新模型能力 | ⚠️ 云端模型 |
| 需要强泛化能力 | ⚠️ 云端模型 |
| 特定垂直领域 | ✅ 本地模型可行 |
结论
SharpAI 的 HomeSec-Bench 基准测试表明:在特定垂直领域(如家庭安全),本地 9B 模型确实已经逼近云端顶级模型的可用区间。Qwen3.5-9B 以 93.8% 的通过率、仅 13.8GB 的内存占用、以及零 API 成本的优势,为本地 AI 应用提供了新的可能性。
然而,这一结论需要放在以下背景下理解:
- 基准测试由产品方自建,可能存在偏向性
- 测试场景高度垂直(家庭安全),泛化能力存疑
- 云端模型在通用任务和最新能力上仍有优势
本地小模型正在逼近云端模型的可用区——至少在特定领域是这样。