跳到主要内容

SharpAI:本地小模型正在逼近云端模型的可用区吗?

背景介绍

SharpAI 是一个专注于本地优先 AI 的团队,其产品 Aegis-AI 是一款运行在消费级硬件上的本地化 AI 家庭安全系统。他们发布了 HomeSec-Bench 基准测试,用以评估 LLM 在真实家庭安全场景中的表现。

该基准测试的核心问题是:一个 9B 参数的本地模型,能否在具体垂直领域(家庭安全)达到接近云端顶级模型的效果?

HomeSec-Bench 基准测试概述

测试设计

  • 测试数量:96 个 LLM 测试 + 35 个 VLM 测试
  • 测试套件:15 个维度
  • 测试图片:全部为 AI 生成(无真实用户画面)
  • 模型兼容性:任何 OpenAI 兼容端点

测试维度

编号套件名称测试数评估内容
1上下文预处理6对话去重、系统消息保留
2主题分类4查询路由到正确领域
3知识蒸馏5从对话中提取持久化事实
4事件去重8跨摄像头识别同一人
5工具使用16正确选择工具和参数
6聊天与 JSON 合规11人设、JSON 输出、多语言
7安全分类12Normal → Monitor → Suspicious → Critical
8叙事综合4事件日志生成日报
9提示注入抵抗4角色混淆、提示提取、升级
10多轮推理4指代消解、时间跨步
11错误恢复4处理不可能查询、API 错误
12隐私合规3PII 删除、非法监控拒绝
13告警路由5通道路由、静默时段解析
14知识注入5使用注入知识个性化响应
15VLM 到告警分类5端到端:VLM 输出 → 紧急度 → 告警分发

基准测试结果

完整排行榜

排名模型类型通过失败通过率总耗时
🥇 1GPT-5.4☁️ 云端94297.9%2m 22s
🥈 2GPT-5.4-mini☁️ 云端92495.8%1m 17s
🥉 3Qwen3.5-9B (Q4_K_M)🏠 本地90693.8%5m 23s
3Qwen3.5-27B (Q4_K_M)🏠 本地90693.8%15m 8s
5Qwen3.5-122B-MoE (IQ1_M)🏠 本地89792.7%8m 26s
5GPT-5.4-nano☁️ 云端89792.7%1m 34s
7Qwen3.5-35B-MoE (Q4_K_L)🏠 本地88891.7%3m 30s
8GPT-5-mini (2025)☁️ 云端603662.5%*7m 38s

* GPT-5-mini 因 API 拒绝非默认 temperature 值导致大量失败,属于 API 限制而非模型能力问题。

性能对比

首个 Token 时间 (TTFT)

模型类型TTFT (平均)TTFT (p95)
Qwen3.5-35B-MoE🏠 本地435ms673ms
GPT-5.4-nano☁️ 云端508ms990ms
GPT-5.4-mini☁️ 云端553ms805ms
GPT-5.4☁️ 云端601ms1052ms
Qwen3.5-9B🏠 本地765ms1437ms
Qwen3.5-122B-MoE🏠 本地1627ms2331ms
Qwen3.5-27B🏠 本地2156ms3642ms

解码速度 (tokens/second)

模型类型解码速度
GPT-5.4-mini☁️ 云端234.5 tok/s
GPT-5.4-nano☁️ 云端136.4 tok/s
GPT-5.4☁️ 云端73.4 tok/s
Qwen3.5-35B-MoE🏠 本地41.9 tok/s
Qwen3.5-9B🏠 本地25 tok/s
Qwen3.5-122B-MoE🏠 本地18 tok/s
Qwen3.5-27B🏠 本地10 tok/s

内存占用

模型GPU 内存
Qwen3.5-35B-MoE27.2 GB
Qwen3.5-9B13.8 GB
Qwen3.5-122B-MoE40.8 GB
Qwen3.5-27B24.9 GB

关键发现分析

1. 官方宣称的亮点

SharpAI 官方强调的核心数据:

  • Qwen3.5-9B 在 MacBook Pro M5 上达到 93.8% 通过率
  • 与 GPT-5.4 的差距仅为 4.1 个百分点
  • 甚至超越了 GPT-5.4-nano 1 个百分点
  • 零 API 成本、完全数据隐私
  • 仅需 13.8 GB 统一内存

2. 可观察的事实

  • 测试环境:MacBook Pro M5 (M5 Pro 芯片,18 核心,64GB 统一内存),macOS 15.3
  • 本地推理引擎:llama.cpp (llama-server)
  • 测试套件为 SharpAI 自建:HomeSec-Bench v1
  • 测试数据为 AI 生成:35 张图片全部为合成数据
  • 云端对比仅限 OpenAI:未包含 Claude、Gemini 等竞品

3. 需要保留判断的部分

考量因素说明
基准自建HomeSec-Bench 由 SharpAI 自行设计,测试集可能偏向其产品用例
领域特殊性家庭安全场景是垂直领域,在其他场景(如编程辅助、创意写作)结果未必相同
测试数据合成全部使用 AI 生成图片,缺少真实家庭环境的复杂性
模型量化影响各模型使用不同量化方法(Q4_K_M、IQ1_M),量化对精度的影响未单独分析
对比范围有限仅对比 OpenAI 云端模型,未对比 Claude、Gemini 等主流竞品
硬件限制仅测试 Apple Silicon,在 NVIDIA GPU 上的表现可能不同

我的判断

本地小模型的进步是真实的

Qwen3.5 系列模型在垂直领域任务上的表现确实令人印象深刻。9B 模型能够在资源受限的环境下达到 93.8% 的准确率,说明:

  1. 量化技术成熟:Q4_K_M 量化在保持性能的同时大幅降低内存需求
  2. MoE 架构高效:Qwen3.5-35B-MoE 的首个 Token 时间甚至优于所有 OpenAI 云端模型
  3. 垂直场景友好:在特定领域,本地模型的差距可以被接受

但需理性看待

  1. 基准可信度:自建基准难免存在优化空间,第三方基准(如 MMLU、HellaSwag)可能有不同结论
  2. 通用能力差距:云端模型在泛化能力上仍有优势,尤其在未见过的任务上
  3. 生态完整性:云端模型通常配套更好的工具链和服务,本地模型需要额外维护

适用场景建议

场景推荐
隐私敏感✅ 本地模型
成本敏感✅ 本地模型
需要最新模型能力⚠️ 云端模型
需要强泛化能力⚠️ 云端模型
特定垂直领域✅ 本地模型可行

结论

SharpAI 的 HomeSec-Bench 基准测试表明:在特定垂直领域(如家庭安全),本地 9B 模型确实已经逼近云端顶级模型的可用区间。Qwen3.5-9B 以 93.8% 的通过率、仅 13.8GB 的内存占用、以及零 API 成本的优势,为本地 AI 应用提供了新的可能性。

然而,这一结论需要放在以下背景下理解:

  • 基准测试由产品方自建,可能存在偏向性
  • 测试场景高度垂直(家庭安全),泛化能力存疑
  • 云端模型在通用任务和最新能力上仍有优势

本地小模型正在逼近云端模型的可用区——至少在特定领域是这样。

原文链接