跳到正文
知行小站

← 文章列表

AI 测评 · LLM · 职业 · 约 25 分钟

AI 测评工程师完整技能栈(2026)

从传统 QA 到 AI 质量工程师的系统性转型指南:思维转型、LLM 评估方法论、RAG/Agent、红队测试、工程化流水线与合规治理。

| 阅读 -

从传统 QA 到 AI 质量工程师的系统性转型指南


为什么写这篇文章

2026 年,AI 应用已经深入每一个软件产品。但绝大多数团队在 AI 质量保障上仍停留在”人工看一看”的阶段——没有系统化的评估指标、没有自动化的测试流水线、没有可量化的质量基线。

“评估工程师”(Evaluation Engineer)正在成为 2026 年最稀缺的技术角色之一。 能够度量、压测和负责任地交付 AI 系统的能力,正是将顶尖工程师与普通从业者区分开来的关键。

本文从实战出发,完整梳理 AI 测评方向所需的全部知识、工具和实践路径。


目录


一、思维转型:从确定性测试到概率性评估

这是整个技能栈中最重要的一环。如果你只从本文带走一个认知,就是这个:

传统测试 vs AI 测评

维度传统软件测试AI/LLM 测评
输入输出关系确定性:相同输入 → 相同输出非确定性:相同输入 → 不同但可能都正确的输出
判定标准二值:PASS / FAIL概率性:0.0 ~ 1.0 的质量分数
断言方式assertEqual(output, expected)assert score >= threshold
失败模式崩溃、异常、返回值错误幻觉、偏见、拒答、格式崩坏、上下文混淆
测试用例手写或参数化生成Golden Dataset + 合成数据
评判者代码逻辑LLM-as-a-Judge / 人类标注 / NLP 指标

LLM 应用的五大典型失败模式

  1. 幻觉(Hallucination)——生成听起来合理但完全虚假的内容
  2. 拒答(Refusal)——对合理请求不当拒绝
  3. 漂移(Drift)——质量随时间或模型更新悄然下降
  4. 格式崩坏(Format Breaking)——JSON 不合法、Markdown 断裂
  5. 上下文混淆(Context Confusion)——混淆不同用户/会话的信息

关键认知:你不再是在测”对不对”,而是在测”多好”、“多安全”、“多稳定”。


二、基础层:理解被测对象

做 AI 测评首先要理解”被测对象”的工作原理。不需要成为算法专家,但需要理解以下核心概念。

2.1 大语言模型基础

知识点你需要理解到什么程度推荐资源
Transformer 与注意力机制理解”为什么模型能理解上下文”LLM Visualization — 交互式可视化
Token 化理解”为什么 Token 数影响成本和质量”OpenAI Tokenizer
Temperature / Top-p理解”为什么同一提示的输出不同”实操:在 LM Studio 中调节参数观察差异
上下文窗口理解”为什么长文档会丢失信息”实操:用超长文本测试模型
微调 vs 提示工程理解”什么时候用哪种方法”Prompt Engineering Guide

2.2 提示工程

这不仅是使用 AI 的技能,更是设计评估 prompt 的必备能力——因为评估指标本身就是通过精心设计的 prompt 来实现 LLM-as-a-Judge 的。

技术说明在测评中的应用
Zero-shot不给示例简单评估任务
Few-shot给出几个示例校准评估标准
Chain-of-Thought要求模型逐步推理G-Eval 等需要推理的指标
System Prompt设定角色和约束自定义评估判官的行为

2.3 RAG 架构

检索增强生成(Retrieval-Augmented Generation) 是当前最常见的 LLM 应用架构。

用户问题 → 向量检索 → 获取相关文档片段 → LLM 基于文档生成回答

测评 RAG 系统需要分别评估检索质量生成质量,这是两个独立的失败点。

2.4 AI Agent 架构

Agent = LLM + 工具调用 + 规划能力。评估 Agent 比评估普通 LLM 对话复杂得多,因为需要考虑:


三、核心层:LLM 评估方法论

3.1 评估维度体系

一个成熟的 AI 测评体系需要覆盖以下七个维度:

维度定义核心指标阈值参考
正确性输出是否事实正确Correctness, G-Eval≥ 0.7
相关性回答是否切题Answer Relevancy≥ 0.75
忠实度是否基于给定上下文回答Faithfulness, Groundedness≥ 0.8(受监管行业 ≥ 0.9)
幻觉是否产生不存在的信息Hallucination Score≤ 0.2
连贯性逻辑是否通顺一致Coherence≥ 0.7
安全性是否有毒/偏见/不当内容Toxicity, Bias≤ 0.1
鲁棒性对抗性输入下是否稳定Adversarial Robustness通过率 ≥ 90%

3.2 四大评估范式

范式一:LLM-as-a-Judge(最主流)

用一个强模型(如 GPT-4、Claude Opus、MiMo-V2-Pro)来评判另一个模型的输出质量。

# DeepEval 示例:G-Eval 自定义评估
from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCaseParams

metric = GEval(
    name="正确性",
    criteria="判断 actual_output 是否基于 expected_output 提供了正确的信息",
    evaluation_params=[
        LLMTestCaseParams.ACTUAL_OUTPUT,
        LLMTestCaseParams.EXPECTED_OUTPUT,
    ],
    threshold=0.7,
    model=your_judge_model,  # 可以是本地模型或 API 模型
)

优势:灵活、可解释(能给出评分理由)、适合复杂场景 劣势:受限于评估模型自身的能力、成本较高、有偏差风险

范式二:基准测试(Benchmark)

在标准数据集上跑分,和业界模型对比。

基准评估能力说明
MMLU / MMLU-Pro知识广度57 个学科的多选题
HumanEval / MBPP代码生成给定函数签名生成实现
GSM8K数学推理小学数学应用题
TruthfulQA真实性检测模型是否复制常见误解
GPQA Diamond专家推理研究生级别的科学问题
HellaSwag常识推理情景续写选择

范式三:人工评估

最可靠但成本最高。常用方法:

  • Chatbot Arena:两个模型匿名对战,人类选择更好的
  • 标注员打分:按维度 1-5 分打分
  • A/B 测试:生产环境中的用户偏好

范式四:传统 NLP 指标

适用于有明确标准答案的场景:

指标适用场景
BLEU机器翻译
ROUGE文本摘要
BERTScore语义相似度
Exact Match信息抽取

3.3 评估金字塔

类比传统测试金字塔,LLM 评估也有层级:

                ┌──────────────┐
                │ 端到端评估   │ ← 完整用户场景
                │  (E2E Eval)  │
               ├──────────────┤
              │ 功能评估        │ ← RAG 管道、Agent 链路
              │ (Functional)    │
             ├──────────────────┤
            │ 单元评估            │ ← 单个 Prompt 的质量
            │ (Unit Eval)        │
           ├──────────────────────┤
          │ 回归评估               │ ← Golden Dataset 对比
          │ (Regression Eval)     │
         └─────────────────────────┘
  • 单元评估:单个 prompt 输入,检查输出质量是否达标
  • 功能评估:测试 RAG 检索+生成的完整链路
  • 端到端评估:模拟真实用户多轮对话场景
  • 回归评估:模型/提示词更新后,跑 Golden Dataset 对比

四、应用层:工具链与框架

4.1 评估框架全景对比

框架核心定位语言本地模型支持CI/CD最适合
DeepEval类 Pytest 的 LLM 单元测试Python全面的评估测试
RAGAS专注 RAG 评估PythonRAG 管道质量
PromptfooPrompt 回归测试Node.js✅ (GitHub Actions)提示词迭代对比
LangSmithLangChain 生态追踪+评估Python部分LangChain 项目
Braintrust实验管理平台Python/TS团队协作实验

深入:DeepEval(推荐首选)

DeepEval 是目前最全面的开源 LLM 评估框架,优势:

  1. 类 Pytest 语法——测试工程师零学习成本
  2. 14+ 内置指标——覆盖 RAG、Agent、对话、安全等
  3. 支持任意模型——包括本地部署的开源模型
  4. 可解释性——每个分数都有评分理由
  5. CI/CD 友好——可直接集成到自动化流水线
# DeepEval + 本地模型完整示例
import pytest
from deepeval import assert_test
from deepeval.metrics import AnswerRelevancyMetric, FaithfulnessMetric
from deepeval.test_case import LLMTestCase

# 自定义本地模型作为评估判官(LM Studio / Ollama)
from models.openrouter_model import OpenRouterModel
judge = OpenRouterModel(model_name="xiaomi/mimo-v2-pro")

@pytest.mark.parametrize("test_case", [
    LLMTestCase(
        input="如何在 WPS 中设置页边距?",
        actual_output="点击页面布局→页边距→自定义边距。",
        retrieval_context=["WPS 通过页面布局菜单设置边距。"],
    ),
])
def test_rag_quality(test_case):
    relevancy = AnswerRelevancyMetric(threshold=0.7, model=judge)
    faithfulness = FaithfulnessMetric(threshold=0.8, model=judge)
    assert_test(test_case, [relevancy, faithfulness])
# 运行评估
deepeval test run test_rag_quality.py -n 4  # -n 4 表示 4 个并行

五、专项能力:RAG 评估

RAG 是最常见的 LLM 应用架构,也是评估重点。

5.1 RAG 三元组(RAG Triad)

RAG 系统有两个独立的失败点,用三个核心指标覆盖:

               ┌─────────────────────┐
               │   用户问题 (Query)   │
               └──────┬──────────────┘

        ┌─────────────▼──────────────┐
        │   检索模块 (Retriever)      │
        │                             │
        │  指标①:Context Relevance   │ ← 检索到的内容是否相关?
        │  指标②:Context Recall      │ ← 是否找全了需要的内容?
        └─────────────┬──────────────┘

        ┌─────────────▼──────────────┐
        │   生成模块 (Generator)      │
        │                             │
        │  指标③:Faithfulness        │ ← 生成的回答是否忠实于检索内容?
        │  指标④:Answer Relevancy    │ ← 生成的回答是否切题?
        └─────────────────────────────┘

5.2 RAG 关键指标详解

指标定义计算方法目标值
Context Precision检索到的内容中有多少是有用的有用片段数 / 总检索片段数≥ 0.7
Context Recall需要的信息是否都被检索到了召回的关键信息数 / 总关键信息数≥ 0.8
Faithfulness生成的回答是否有据可查有据断言数 / 总断言数≥ 0.8(受监管 ≥ 0.9)
Answer Relevancy回答是否切题相关句子数 / 总句子数≥ 0.75
Citation Correctness引用是否指向正确的来源正确引用数 / 总引用数≥ 0.9

5.3 RAG 评估的超参数测试

除了评估输出,还要系统测试影响质量的关键配置:

  • Embedding 模型选择:text-embedding-3-small vs bge-large-zh
  • Top-K 检索数量:3 vs 5 vs 10 vs 20
  • Chunk Size:256 vs 512 vs 1024
  • 重排序策略:无 vs Cohere Reranker vs BGE Reranker
  • LLM Temperature:0 vs 0.3 vs 0.7
# DeepEval 中使用 RAGAS 指标评估 RAG
from deepeval.metrics import (
    ContextualPrecisionMetric,
    ContextualRecallMetric,
    FaithfulnessMetric,
    AnswerRelevancyMetric,
)

metrics = [
    ContextualPrecisionMetric(threshold=0.7, model=judge),
    ContextualRecallMetric(threshold=0.8, model=judge),
    FaithfulnessMetric(threshold=0.8, model=judge),
    AnswerRelevancyMetric(threshold=0.75, model=judge),
]

六、专项能力:Agent 评估

Agent 评估比普通 LLM 评估复杂得多,因为涉及多步推理、工具调用和任务编排。

6.1 Agent 评估维度

维度评估内容指标
任务完成度Agent 是否完成了用户的目标Task Completion Rate
工具正确性是否选对了工具、传对了参数Tool Correctness
轨迹合理性执行路径是否合理高效Trajectory Efficiency
安全性是否执行了危险操作Safety Violation Rate
可解释性推理过程是否透明可追溯Reasoning Transparency

6.2 Agent 评估基准(2026)

基准发布方特点地址
VAKRAIBM (2026.03)8000+ API、62 领域、3-7 步推理链链接
ToolathlonICLR 202632 个软件应用、604 个工具、108 个任务toolathlon.xyz
Claw-Eval社区 (2026.03)139 个任务、Pass³ 指标消除运气因素GitHub
τ²-Bench学术电信领域端到端 Agent 评估学术论文

6.3 DeepEval 中的 Agent 评估

from deepeval.metrics import TaskCompletionMetric, ToolCorrectnessMetric

task_metric = TaskCompletionMetric(threshold=0.8, model=judge)
tool_metric = ToolCorrectnessMetric(threshold=0.9, model=judge)

七、专项能力:AI 安全与红队测试

这是 2026 年最有含金量的专项能力之一。 未防护模型的攻击成功率高达 87%,而现代防御手段可将其降至 4.4%。

7.1 红队测试工具全景对比

工具维护方特点最适合地址
GarakNVIDIA120+ 漏洞类别,插件式架构,审计友好系统性安全审计GitHub
PyRITMicrosoft完整框架,可链式攻击,支持视觉模型深度定制化测试GitHub
Promptfoo Red TeamPromptfoo应用感知,CI/CD 集成,Web 看板持续安全测试文档
DeepEval Red TeamingConfident AIDeepEval 内置,40+ 攻击场景评估框架一体化文档

7.2 常见攻击类型

攻击类型说明风险等级
提示词注入通过精心构造的输入绕过系统指令🔴 极高
越狱攻击诱导模型产生被禁止的输出🔴 极高
数据泄露提取训练数据中的敏感信息🔴 极高
毒性生成产生有害、侮辱性内容🟡 高
偏见放大输出体现或强化社会偏见🟡 高
SQL/代码注入通过工具调用执行恶意代码🔴 极高
间接注入通过第三方数据源注入恶意指令🔴 极高
拒绝服务构造超长/超复杂输入消耗资源🟢 中

7.3 红队测试实践

# DeepEval 红队测试示例
from deepeval.red_teaming import RedTeamer

red_teamer = RedTeamer(model=judge)

# 对目标模型进行安全扫描
results = red_teamer.scan(
    target_model=your_ai_app,
    attacks=[
        "prompt_injection",
        "jailbreak",
        "toxicity",
        "bias",
        "sql_injection",
    ],
)

# 生成安全报告
print(f"总攻击数: {results.total_attacks}")
print(f"攻击成功率: {results.attack_success_rate:.1%}")
print(f"发现漏洞数: {results.vulnerabilities_found}")

八、工程化:可观测性与生产监控

评估不仅在上线前——生产环境中的持续监控同样重要。

8.1 可观测性工具对比

工具定位核心能力开源地址
Langfuse生产监控优先追踪、Prompt 版本管理、成本分析、用户会话分组GitHub
Phoenix开发调试优先实验对比、Span 级分析、检索文档审查GitHub
HeliconeAPI 网关模式透明代理、零代码集成、成本追踪GitHub

选型建议

  • 需要生产监控和 Prompt 治理 → Langfuse
  • 需要实验对比和深度调试 → Phoenix
  • 需要最低侵入性的成本追踪 → Helicone
  • 三者都基于 OpenTelemetry 标准,可以同时使用

8.2 生产监控关键指标

指标类别具体指标含义
质量幻觉率、用户满意度、任务完成率输出是否达标
性能TTFT(首 Token 时间)、TPS(每秒 Token)响应速度
成本Token 消耗、API 调用次数、每次对话成本经济可持续性
安全拒答率、安全拦截率、敏感信息泄露事件合规保障
可用性错误率、超时率、降级触发次数系统稳定性

8.3 生产环境中的 LLM-as-a-Judge

Langfuse 在 2026 年 4 月发布了在线评估的最佳实践——使用 LLM-as-a-Judge 监控生产中的高信号事件:

  • 用户挫败检测:分析对话是否出现用户不满

  • 分歧检测:两个模型对同一输入给出矛盾回答时报警

  • 质量降级预警:评估分数低于阈值时触发告警

  • 📘 Langfuse: LLM-as-a-Judge 生产监控


九、体系化:评估流水线与 CI/CD 集成

9.1 评估流水线架构

┌──────────┐    ┌──────────────┐    ┌──────────┐    ┌──────────────┐
│ 代码变更  │───▶│ Golden       │───▶│ 评估执行  │───▶│ 报告 & 门控  │
│ (PR/MR)  │    │ Dataset 加载 │    │ (DeepEval)│    │ (Pass/Fail)  │
└──────────┘    └──────────────┘    └──────────┘    └──────────────┘
                                          │                 │
                                          ▼                 ▼
                                    ┌──────────┐    ┌──────────────┐
                                    │ 指标计算  │    │ 仪表盘更新   │
                                    │ & 对比    │    │ & 通知       │
                                    └──────────┘    └──────────────┘

9.2 CI/CD 集成示例

GitHub Actions

# .github/workflows/llm-eval.yml
name: LLM Evaluation
on:
  pull_request:
    paths:
      - 'prompts/**'
      - 'rag/**'
      - 'agents/**'

jobs:
  evaluate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with:
          python-version: '3.12'
      - run: pip install deepeval
      - run: deepeval test run tests/eval/ -n 4
        env:
          OPENROUTER_API_KEY: ${{ secrets.OPENROUTER_API_KEY }}
      - name: Upload Results
        if: always()
        uses: actions/upload-artifact@v4
        with:
          name: eval-results
          path: .deepeval/

质量门控

# conftest.py - 配置评估门控
import pytest

def pytest_terminal_summary(terminalreporter):
    passed = len(terminalreporter.stats.get("passed", []))
    failed = len(terminalreporter.stats.get("failed", []))
    total = passed + failed
    pass_rate = passed / total if total > 0 else 0

    if pass_rate < 0.95:
        pytest.exit(
            f"评估通过率 {pass_rate:.1%} 低于 95% 门控阈值,阻止合并。",
            returncode=1,
        )

十、进阶:自定义 Benchmark 与数据集工程

10.1 Golden Dataset 设计原则

Golden Dataset 是评估体系的基石。设计要点:

原则说明
覆盖性覆盖核心业务场景的主要路径和边界情况
多样性包含不同难度、不同表述方式、不同语言风格的用例
对抗性包含容易引发幻觉、混淆、拒答的”陷阱”用例
版本控制数据集随产品迭代更新,保留历史版本用于对比
标注质量Expected Output 由领域专家标注和审核

10.2 合成数据生成

当真实数据不足时,可以用 LLM 生成合成测试数据:

from deepeval.dataset import EvaluationDataset
from deepeval.synthesizer import Synthesizer

synthesizer = Synthesizer(model=judge)

# 从文档自动生成 QA 对
dataset = synthesizer.generate_goldens_from_docs(
    document_paths=["docs/user_manual.pdf"],
    max_goldens_per_document=50,
)

10.3 自定义业务 Benchmark

为特定业务场景设计的 Benchmark 远比通用基准有价值:

# 示例:WPS AI 助手质量 Benchmark
benchmark_categories = {
    "文档操作": [
        {"input": "怎么合并两个表格?", "difficulty": "easy"},
        {"input": "如何批量替换文档中的格式?", "difficulty": "medium"},
        {"input": "宏命令怎么实现自动编号?", "difficulty": "hard"},
    ],
    "公式计算": [...],
    "数据分析": [...],
    "多轮对话": [...],
    "错误输入": [...],  # 对抗性用例
}

十一、合规与治理

11.1 国内外 AI 法规

法规地区核心要求生效时间
《生成式人工智能服务管理暂行办法》中国内容安全、标注义务、算法备案2023.08
《人工智能安全治理框架》中国风险分级管控2024
EU AI Act欧盟风险分级、透明度、可解释性2024-2026 分步
NIST AI RMF美国AI 风险管理框架(指导性)2023

11.2 AI 治理中测评工程师的角色

  • 建立 AI 输出质量基线和监控机制

  • 设计并执行安全性/公平性/隐私评估

  • 制定评估标准并与合规团队协作

  • 留存评估证据用于审计

  • 📘 NIST AI Risk Management Framework


十二、学习路线图

按优先级分阶段

第 1 周:快速启动
├── ✅ 安装 DeepEval,跑通第一个评估用例
├── ✅ 理解 LLM-as-a-Judge 范式
├── ✅ 掌握 G-Eval、Answer Relevancy 指标
└── ✅ 用本地模型或 OpenRouter 完成一次完整评估

第 2-3 周:深入核心
├── 掌握 RAG 评估四件套(Precision / Recall / Faithfulness / Relevancy)
├── 学习 RAGAS 框架,对比 DeepEval 的 RAGAS 实现
├── 学习 Promptfoo,做提示词回归测试
└── 开始构建自己的 Golden Dataset

第 4-6 周:安全与 Agent
├── 用 DeepEval / Garak 做红队测试
├── 了解 Agent 评估指标(Task Completion, Tool Correctness)
├── 搭建一个完整的评估流水线
└── 将评估集成到 CI/CD

第 7-12 周:体系化输出
├── 设计业务专属 Benchmark
├── 搭建可观测性平台(Langfuse / Phoenix)
├── 写一篇完整的技术分享
├── 产出评估报告,推动团队采纳
└── 持续跟踪领域最新进展

按角色分路径

当前角色推荐切入点差异化优势
传统测试工程师DeepEval(类 Pytest) + 红队测试测试方法论 + AI 质量
后端开发RAG 评估 + CI/CD 集成系统工程 + 质量度量
数据工程师Golden Dataset + Benchmark 设计数据驱动评估
安全工程师红队测试 + AI 治理AI 安全专家

十三、简历怎么写

岗位关键词

AI 质量工程师 LLM 评估工程师 AI Testing Engineer Evaluation Engineer AI Safety Engineer

项目经验写法示例

AI 应用质量评估体系建设
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
• 基于 DeepEval 框架搭建自动化 LLM 评估流水线,使用本地部署的 Qwen3.5-9B
  和云端 MiMo-V2-Pro 作为评估模型,覆盖正确性、相关性、忠实度、幻觉四个维度
• 设计并实施 RAG 系统质量评估方案,包含 Context Precision/Recall、
  Faithfulness 等 6 项核心指标,推动 RAG 忠实度从 0.72 提升至 0.91
• 使用 Garak + DeepEval 对 AI 功能实施红队测试,覆盖提示词注入、越狱攻击等
  40+ 安全场景,发现并协助修复 12 个安全漏洞
• 将评估流水线集成到 CI/CD(GitHub Actions),每次 Prompt/模型变更
  自动触发回归评估,阻止 3 次质量降级的上线
• 构建包含 500+ 用例的业务 Golden Dataset,覆盖核心用户场景,
  建立质量基线和版本间对比机制

技能关键词

评估框架: DeepEval, RAGAS, Promptfoo, LangSmith
评估指标: G-Eval, Faithfulness, Context Precision/Recall, Answer Relevancy
安全测试: AI Red Teaming, Prompt Injection Detection, Garak, PyRIT
可观测性: Langfuse, Phoenix, OpenTelemetry
模型部署: LM Studio, Ollama, vLLM
基准测试: MMLU, HumanEval, TruthfulQA, 自定义 Benchmark

附录:关键资源索引

评估框架

名称链接
DeepEvalGitHub / 文档
RAGASGitHub / 文档
PromptfooGitHub / 文档
LangSmith文档

安全测试

名称链接
Garak (NVIDIA)GitHub
PyRIT (Microsoft)GitHub
DeepEval Red Teaming文档

可观测性

名称链接
LangfuseGitHub / 文档
Phoenix (Arize)GitHub / 文档

学术论文

主题链接
G-Eval: NLG Evaluation using GPT-4arXiv
RAG 论文原文arXiv
LLM 幻觉综述arXiv
HELM 评估基准斯坦福 CRFM

学习资源

名称链接
Prompt Engineering Guide (中文)promptingguide.ai
LLM Visualizationbbycroft.net
LLM Agents 综述Lilian Weng
LLM 测试实战指南aitestingguide.com
RAG 评估最佳实践premai.io

最后一句话:AI 测评不是一个工具问题,而是一个思维方式问题。掌握”概率性评估”的思维模式,比学会任何一个框架都重要。工具会变,方法论不会。

本文写于 2026 年 4 月,基于实际项目经验和最新行业资料。