AI 重塑研发全流程:从 Coding 到 Test,测试开发如何不掉队?

张开发
2026/4/11 4:47:44 15 分钟阅读

分享文章

AI 重塑研发全流程:从 Coding 到 Test,测试开发如何不掉队?
关注 霍格沃兹测试学院公众号回复「资料」, 领取人工智能测试开发技术合集一场由大模型驱动的研发变革正在发生AI 不再只是代码补全工具而是能独立完成需求、测试、发布的“数字员工”。本文结合某电商企业的落地实践带你了解 AI Coding、AI Test 的全景并聚焦测试开发在 AI 项目中的新角色。一、AI 编程为什么突然火了2025 年被称为 AI 应用元年编程领域的变化尤为剧烈工具爆发从 GitHub Copilot2000 万用户到 Cursor230 万用户再到 Claude Code3 个月增长 10 倍AI 编程工具已经全面铺开。收入惊人Copilot 年收入超 3 亿美元Cursor 和 Claude Code 均超 5 亿美元。门槛降低氛围编程Vibe Coding兴起产品经理甚至能用自然语言直接交付可交互的原型。但在企业级软件工程中AI 落地远非“让 AI 写几段代码”那么简单。大规模、高复杂、多协作、私有化——这四大特点让 AI 必须与现有研发体系深度融合。二、AI Coding从个人助手到规模协同2.1 路线选择以 Agent 为主人监督过去的人主导、AI 辅助模式存在信息传递低效、经验无法复用、规模化困难等问题。因此某电商企业选择了以 Agent 为主人监督的路线像搭建一个开发团队一样构建 Coding Agent。2.2 核心架构一个专业的 Coding Agent 需要具备垂直编程大模型如 Claude Code 底座上下文工程引入企业规范、约束长期记忆将开发者的纠偏沉淀为经验内部知识库业务术语、技术选型、工程现状工具链集成通过 MCP 对接需求平台、Git、飞书等云端沙箱每个会话独立、无状态、可水平扩容多 Agent 协同按流程拆分需求解析、代码定位、方案生成、编码、审查2.3 长期记忆让 Agent 越用越聪明AI 刚接入时效果并不好因为大量经验藏在开发者脑中。为此团队打造了长期记忆系统提取开发者的纠偏对话 → 自然语言标签存储 → 向量检索召回 → 定期遗忘/泛化。效果同类任务从需要 5~10 轮修正降低到 1~3 轮。2.4 人工监督HITL面向开发者通过飞书 IM 文档 GitLab在每个阶段需求清单、方案、代码、效果审核和修正。面向管理者多维表格仪表盘监控交付率、对话轮次、Token 消耗等。2.5 落地成果已交付近百个需求**综合提效 30%**含人工监督耗时。单个需求 Token 费用不足 100 元人民币。典型场景翻译型任务如基础库升级50 人日 → 几十分钟、跨域编程学习成本几乎抹平。 一个有趣的插曲开发同学外出聚餐没带电脑用手机飞书唤醒 Agent描述 BugAgent 改完并发布全程只花了几分钟。三、AI Test从自动化到智能化传统自动化测试面临编写门槛高、维护成本高、失败排查难等问题。AI 时代编码效率提升测试必须更快、更智能。3.1 AI 用例标准化历史用例质量参差不齐导致GIGO垃圾进垃圾出。解决方案是自然语言用例兼具语义性和可执行性。存量优化LLM 生成规范名称、补充断言。增量生成结合业务知识库 参考历史用例。3.2 AI 增强录制传统录制步骤冗余、定位不准。新方案用户操作时同时录制 DOM 截图 → 多模态 LLM 分析 → 生成自然语言步骤。通过DOM 裁切降低 99% Token、交互区域标注、父级元素标注准确率从 70% 提升至 89%。耗时 5~10 秒跨平台Web、App、小程序、鸿蒙等。3.3 AI 用例执行任务中心统一调度每天执行超10 万次成功率 96%。提速策略优先程序执行失败时 AI 兜底成功后 AI 自愈更新脚本。模型选型UI-TARS-1.5 在元素定位精度和移动端表现最佳。3.4 AI 无参考测试不需要预期结果让 LLM 自主判断页面是否异常。为此引入监督微调LoRA构建思维链微调数据Instruction Input Output 内部知识 分析过程。正负样本比例 1:3避免模型“总是发现问题”。目前垂直模型正在微调中。3.5 AI 归因归类与修复归因归类100 条失败用例从人工 15 分钟 → AI 1 分钟准确率 85%。自动修复针对像素波动、非核心元素变化准确率 60%人工确认后可一键修复。四、Agent 评测从炫酷到生产可用Agent 开发完 ≠ 可以上线。传统软件测试有确定预期Agent 的输出是开放、不确定的必须建立评测体系。4.1 评测集类型有参考 / 无参考 / 参考资料。构造人工标注 50~100 条种子 → LLM 泛化 → 线上采样补充 Badcase。划分种子集、Badcase 集、扩展集、对抗集、场景集。4.2 评测器初期人工评测后期自动化裁判模型。评分归一化0~5 分兼顾可解释性与区分度。加入 CoT思维链提升可解释性和一致性。4.3 评测指标效果指标准确率、召回率、任务完成率。技术指标Token 消耗、延迟。用户指标点赞率、纠偏率。裁判模型自身指标人工一致性、评分方差、异常打分率。4.4 反馈系统显式反馈点赞/点踩预设标签降低操作成本。隐式反馈用户行为例如从多张 AI 生成图中选择哪一张。所有 Agent 发布前必须通过评测验证。五、测试开发在 AI 项目中的具体工作示例作为测试开发工程师你在 AI 项目中绝不是“旁观者”而是质量体系的架构师。以下是你可以直接落地的示例5.1 构建 AI 测试的评测集与裁判模型工作针对 Test Agent如用例生成、无参考测试人工标注 200 条“好/坏”输出定义评分维度如步骤完整性、断言合理性、幻觉程度。产出种子评测集 裁判模型的 Prompt含 CoT 示例。效果让 AI 自测快速迭代提示词和微调数据。5.2 开发 AI 增强录制的辅助工具工作编写 DOM 裁切脚本过滤 script、style、敏感信息增加交互区域标注的注入逻辑。调试不同多模态模型Qwen-VL、GPT-4o、UI-TARS的识别差异。产出录制增强服务输出标准化自然语言步骤。效果准确率从 70% 提升至 89%录制步骤可回放、可维护。5.3 搭建 AI 归因归类的流水线工作设计失败用例的预处理流程图片切片、步骤拆分编写并发调用归因 Agent 的代码实现总结 Agent 和归类 Agent 的串联。产出归因归类服务每天自动处理数千条失败用例。效果测试人员从“看日志”转向“验证归因结果”效率提升 10 倍以上。5.4 设计 Agent 的 HITL 监督面板工作开发多维表格的同步脚本拉取 Agent 对话日志计算交付率、平均修正轮次、Token 消耗等指标并自动标记异常会话。产出管理者仪表盘 开发者的飞书审核机器人。效果及时发现 Agent 的“偏航”行为并沉淀为 Badcase 加入评测集。5.5 主导 AI 自动化测试的融合框架工作设计“程序优先 AI 兜底 自愈更新”的执行引擎。当 AI 兜底成功后自动生成可更新的程序定位符如增强的 CSS 选择器。产出混合执行框架同时支持传统脚本和自然语言步骤。效果既有程序的毫秒级速度又有 AI 的鲁棒性。六、AI 落地的关键经验区分创造性与执行性现阶段 LLM 擅长执行性工作如翻译型任务、回归测试。从单点突破开始先拿小需求验证积累数据和记忆。人机协作不是口号设计好监督界面、知识外化路径、责任归属人敢用。私有化基建知识库、工具链、记忆系统——这些才是壁垒。基于评测迭代不要先写方案再开发而是用测试集驱动上下文工程。分阶段落地AI 增强 → AI 驱动 → AI 自主切忌一蹴而就。七、全景展望某电商企业已经在研发全流程落地 AI设计Agent 解析需求、生成技术方案编码多 Agent 协同完成跨仓库改动测试自然语言用例 AI 执行 归因修复运维对话式发布贯穿Agent 评测体系持续反馈AI 不会取代你但会用 AI 的同行会。测试开发的新价值在于定义质量边界、构建评测体系、设计人机协作流程。从现在开始动手构建你的第一个 Test Agent 吧本文根据某电商企业 AI 研发全流程落地实践整理已脱敏。

更多文章