AI 开发核心技术栈
摘要: 会写 Python 和调用 Ollama 只是入门。要构建高可用、高精准、可落地的企业级 AI 应用,开发者必须在 数据 (Data)、检索 (Retrieval)、编排 (Orchestration)、运维 (Ops) 四个维度建立深度认知。
📐 维度一:高级检索技术 (Advanced RAG)
—— 解决“答非所问”与“查全率低”的核心痛点
基础的 Embedding -> Search 流程在面对专业领域(如法律、医疗、精密制造)时往往不够用。你需要掌握以下增强技术:
1. 混合检索 (Hybrid Search)
- 原理:结合 关键词检索 (BM25) 和 向量语义检索 (Vector Search)。
- 解决痛点:向量擅长理解语义("苹果" vs "水果"),但对专有名词("iPhone 15 Pro Max")和精确匹配("错误码 502")极不敏感。混合检索能互补短板。
- 工具/库:
Elasticsearch,Milvus,Pinecone(均支持 Hybrid)。
2. 重排序 (Re-ranking) [关键技术]
- 原理:先检索出 Top-50 个粗略结果,然后用一个精排模型(Cross-Encoder)对这 50 个结果进行逐一打分,选出最相关的 Top-5 给 LLM。
- 解决痛点:大幅提升 RAG 的精准度(Precision)。这是目前提升 RAG 效果性价比最高的手段。
- 工具/库:
BGE-Reranker,Cohere Rerank,Jina Reranker。
3. GraphRAG (知识图谱增强)
- 原理:利用知识图谱(Knowledge Graph)提取实体间的关系,弥补向量检索碎片化的问题。
- 解决痛点:解决“全局性摘要”问题(例如:“总结 A 公司和 B 公司所有的关联交易”),这是传统 RAG 做不到的。
- 工具/库:
Neo4j,Microsoft GraphRAG,LangChain GraphCypherQAChain。
🗄️ 维度二:向量数据库与数据处理 (Vector Ops)
—— 解决“数据规模化”与“垃圾进垃圾出”的问题
不要只停留在本地的 Chroma/Faiss,企业级环境需要高性能和复杂的 ETL 处理。
1. 生产级向量数据库
- Milvus:云原生、分布式向量数据库的标准。适合亿级数据量,支持标量过滤(Scalar Filtering)。
- pgvector (PostgreSQL):如果公司已有 PG 数据库,这是首选。它允许在同一个 SQL 查询中混合关系型数据和向量数据(例如:查询“昨天”上传的关于“合同”的文档)。
2. 高级非结构化数据 ETL
- 难点:如何处理 PDF 中的多栏排版、表格、页眉页脚和图片?简单提取会导致语义错乱。
- 解决方案:
- Unstructured.io:强大的开源 ETL 库,支持各种格式清洗。
- LlamaParse:LlamaIndex 推出的专门针对复杂 PDF 表格解析的工具。
- LayoutParser:基于深度学习的文档版面分析。
🎼 维度三:编排与逻辑框架 (Orchestration)
—— 解决“线性流程不够用”与“复杂决策”的问题
从简单的“链 (Chain)”进化到“图 (Graph)”和“自主智能体 (Agent)”。
1. LangGraph (Stateful Agents)
- 核心:引入了 状态 (State) 和 循环 (Loop) 的概念。
- 场景:
- Human-in-the-loop:AI 执行关键操作前暂停,等待人工审批。
- 多步推理:Agent 发现搜索结果不满意,自动决定换个关键词重搜(循环)。
- 多角色协作:Researcher Agent 查资料 -> Editor Agent 写文章。
2. LlamaIndex (Data-Centric Framework)
- 定位:如果你的应用侧重于 检索 (Search) 和 数据索引 (Indexing),LlamaIndex 往往比 LangChain 更高效。
- 核心:提供了极丰富的索引结构(Tree Index, Keyword Table Index, Vector Store Index)。
📊 维度四:评估与运维 (LLMOps / Eval)
—— 解决“黑盒调试”与“效果无法量化”的问题
在企业里,你不能说“我觉得这个 Prompt 更好”,你需要拿出数据证明。
1. 自动化评估 (Evaluation)
- Ragas:RAG 系统的自动化评分框架。
- Fathfulness (忠实度):回答是否忠于文档?(防幻觉)
- Answer Relevance (相关性):回答是否解决了用户问题?
- Context Precision (上下文精度):检索到的文档是否真的有用?
- TruLens:另一种流行的评估工具,提供 "RAG Triad" 评估体系。
2. 链路追踪与监控 (Observability)
- LangSmith:LangChain 官方监控平台。可以看到每一个 Step 的输入输出、Token 消耗、延迟时间。是调试复杂 Agent 的必备工具。
- Arize Phoenix:开源的可观测性工具,支持 Trace 和 Eval 可视化。
🗺️ 技术学习与落地路线图
建议按照以下顺序逐步点亮技能树:
- Level 2 (应用期):
- 重点:Vector Ops + Basic RAG。
- 动作:用 Docker 部署 Milvus,用 Python 写脚本解析 PDF 并存入;在 Dify 中配置混合检索(如果支持)或手动写代码实现。
- Level 3 (进阶期):
- 重点:Orchestration + Advanced RAG。
- 动作:学习 LangGraph,写一个 Router Agent(路由 Milvus 和 Neo4j);接入 BGE-Reranker 优化检索结果。
- Level 4 (专家期):
- 重点:LLMOps + Fine-tuning。
- 动作:引入 Ragas 对你的知识库进行打分测试;使用 LangSmith 监控线上 Agent 的运行状态。