SharpAI：本地小模型正在逼近云端模型的可用区吗？

背景介绍

SharpAI 是一个专注于本地优先 AI 的团队，其产品 Aegis-AI 是一款运行在消费级硬件上的本地化 AI 家庭安全系统。他们发布了 HomeSec-Bench 基准测试，用以评估 LLM 在真实家庭安全场景中的表现。

该基准测试的核心问题是：一个 9B 参数的本地模型，能否在具体垂直领域（家庭安全）达到接近云端顶级模型的效果？

HomeSec-Bench 基准测试概述

测试设计

测试数量：96 个 LLM 测试 + 35 个 VLM 测试
测试套件：15 个维度
测试图片：全部为 AI 生成（无真实用户画面）
模型兼容性：任何 OpenAI 兼容端点

测试维度

编号	套件名称	测试数	评估内容
1	上下文预处理	6	对话去重、系统消息保留
2	主题分类	4	查询路由到正确领域
3	知识蒸馏	5	从对话中提取持久化事实
4	事件去重	8	跨摄像头识别同一人
5	工具使用	16	正确选择工具和参数
6	聊天与 JSON 合规	11	人设、JSON 输出、多语言
7	安全分类	12	Normal → Monitor → Suspicious → Critical
8	叙事综合	4	事件日志生成日报
9	提示注入抵抗	4	角色混淆、提示提取、升级
10	多轮推理	4	指代消解、时间跨步
11	错误恢复	4	处理不可能查询、API 错误
12	隐私合规	3	PII 删除、非法监控拒绝
13	告警路由	5	通道路由、静默时段解析
14	知识注入	5	使用注入知识个性化响应
15	VLM 到告警分类	5	端到端：VLM 输出 → 紧急度 → 告警分发

基准测试结果

完整排行榜

排名	模型	类型	通过	失败	通过率	总耗时
🥇 1	GPT-5.4	☁️ 云端	94	2	97.9%	2m 22s
🥈 2	GPT-5.4-mini	☁️ 云端	92	4	95.8%	1m 17s
🥉 3	Qwen3.5-9B (Q4_K_M)	🏠 本地	90	6	93.8%	5m 23s
3	Qwen3.5-27B (Q4_K_M)	🏠 本地	90	6	93.8%	15m 8s
5	Qwen3.5-122B-MoE (IQ1_M)	🏠 本地	89	7	92.7%	8m 26s
5	GPT-5.4-nano	☁️ 云端	89	7	92.7%	1m 34s
7	Qwen3.5-35B-MoE (Q4_K_L)	🏠 本地	88	8	91.7%	3m 30s
8	GPT-5-mini (2025)	☁️ 云端	60	36	62.5%*	7m 38s

* GPT-5-mini 因 API 拒绝非默认 temperature 值导致大量失败，属于 API 限制而非模型能力问题。

性能对比

首个 Token 时间 (TTFT)

模型	类型	TTFT (平均)	TTFT (p95)
Qwen3.5-35B-MoE	🏠 本地	435ms	673ms
GPT-5.4-nano	☁️ 云端	508ms	990ms
GPT-5.4-mini	☁️ 云端	553ms	805ms
GPT-5.4	☁️ 云端	601ms	1052ms
Qwen3.5-9B	🏠 本地	765ms	1437ms
Qwen3.5-122B-MoE	🏠 本地	1627ms	2331ms
Qwen3.5-27B	🏠 本地	2156ms	3642ms

解码速度 (tokens/second)

模型	类型	解码速度
GPT-5.4-mini	☁️ 云端	234.5 tok/s
GPT-5.4-nano	☁️ 云端	136.4 tok/s
GPT-5.4	☁️ 云端	73.4 tok/s
Qwen3.5-35B-MoE	🏠 本地	41.9 tok/s
Qwen3.5-9B	🏠 本地	25 tok/s
Qwen3.5-122B-MoE	🏠 本地	18 tok/s
Qwen3.5-27B	🏠 本地	10 tok/s

内存占用

模型	GPU 内存
Qwen3.5-35B-MoE	27.2 GB
Qwen3.5-9B	13.8 GB
Qwen3.5-122B-MoE	40.8 GB
Qwen3.5-27B	24.9 GB

关键发现分析

1. 官方宣称的亮点

SharpAI 官方强调的核心数据：

Qwen3.5-9B 在 MacBook Pro M5 上达到 93.8% 通过率
与 GPT-5.4 的差距仅为 4.1 个百分点
甚至超越了 GPT-5.4-nano 1 个百分点
零 API 成本、完全数据隐私
仅需 13.8 GB 统一内存

2. 可观察的事实

测试环境：MacBook Pro M5 (M5 Pro 芯片，18 核心，64GB 统一内存)，macOS 15.3
本地推理引擎：llama.cpp (llama-server)
测试套件为 SharpAI 自建：HomeSec-Bench v1
测试数据为 AI 生成：35 张图片全部为合成数据
云端对比仅限 OpenAI：未包含 Claude、Gemini 等竞品

3. 需要保留判断的部分

考量因素	说明
基准自建	HomeSec-Bench 由 SharpAI 自行设计，测试集可能偏向其产品用例
领域特殊性	家庭安全场景是垂直领域，在其他场景（如编程辅助、创意写作）结果未必相同
测试数据合成	全部使用 AI 生成图片，缺少真实家庭环境的复杂性
模型量化影响	各模型使用不同量化方法（Q4_K_M、IQ1_M），量化对精度的影响未单独分析
对比范围有限	仅对比 OpenAI 云端模型，未对比 Claude、Gemini 等主流竞品
硬件限制	仅测试 Apple Silicon，在 NVIDIA GPU 上的表现可能不同

我的判断

本地小模型的进步是真实的

Qwen3.5 系列模型在垂直领域任务上的表现确实令人印象深刻。9B 模型能够在资源受限的环境下达到 93.8% 的准确率，说明：

量化技术成熟：Q4_K_M 量化在保持性能的同时大幅降低内存需求
MoE 架构高效：Qwen3.5-35B-MoE 的首个 Token 时间甚至优于所有 OpenAI 云端模型
垂直场景友好：在特定领域，本地模型的差距可以被接受

但需理性看待

基准可信度：自建基准难免存在优化空间，第三方基准（如 MMLU、HellaSwag）可能有不同结论
通用能力差距：云端模型在泛化能力上仍有优势，尤其在未见过的任务上
生态完整性：云端模型通常配套更好的工具链和服务，本地模型需要额外维护

适用场景建议

场景	推荐
隐私敏感	✅ 本地模型
成本敏感	✅ 本地模型
需要最新模型能力	⚠️ 云端模型
需要强泛化能力	⚠️ 云端模型
特定垂直领域	✅ 本地模型可行

结论

SharpAI 的 HomeSec-Bench 基准测试表明：在特定垂直领域（如家庭安全），本地 9B 模型确实已经逼近云端顶级模型的可用区间。Qwen3.5-9B 以 93.8% 的通过率、仅 13.8GB 的内存占用、以及零 API 成本的优势，为本地 AI 应用提供了新的可能性。

然而，这一结论需要放在以下背景下理解：

基准测试由产品方自建，可能存在偏向性
测试场景高度垂直（家庭安全），泛化能力存疑
云端模型在通用任务和最新能力上仍有优势

本地小模型正在逼近云端模型的可用区——至少在特定领域是这样。

背景介绍​

HomeSec-Bench 基准测试概述​

测试设计​

测试维度​

基准测试结果​

完整排行榜​

性能对比​

首个 Token 时间 (TTFT)​

解码速度 (tokens/second)​

内存占用​

关键发现分析​

1. 官方宣称的亮点​

2. 可观察的事实​

3. 需要保留判断的部分​

我的判断​

本地小模型的进步是真实的​

但需理性看待​

适用场景建议​

结论​

原文链接​