题目全部来自 LibCyber 自己的真实客服对话(去除个人信息)。每一道题,AI 的回答都会被一个独立的 AI 阅卷官(gpt-5.5)按 4 个维度打分(0–100),并和当年真人客服的真实回答做对比,重复打 3 次取平均,减少随机性。
事实准确、不胡编。编造账户信息 = 这项直接判 0。
是否像真人客服一样真正解决问题,覆盖该说的要点。
是否像 LibCyber 真人团队:用「您」、带「哦」、简短、先给办法。
用客户的语言回复(绝大多数为中文)。
我们分析了 LibCyber 在 Crisp 上 2019–2026 年的全部客服记录,找出客户最常问的 15 类问题、以及它们各占多少比例。考试题目就按这个真实比例来出。
分析 1,000 段真人回复发现:客服几乎只用敬语「您」(不用「你」)、爱用软化语气词「哦」、消息很短(中位数约 24 字)、开口就先给办法、只有真的服务故障才道歉。优化后的提示词就是要还原这种声音。
测试条件:模型 gpt-5.5、推理强度 high、快速模式(priority)、开启知识库检索(438 篇文档,已升级到更精准的 text-embedding-3-large 向量)。账户类问题用一个固定测试账号,确保答案可核对、编造能被抓出。
当时线上实际使用的那条极简提示词只有 60.81 分 —— 排在靠后位置。
下面是「线上旧提示词 → 优化后」每类问题的得分提升。15 类无一下降,提升最大的正是客户体验最差的几类。
点击卡片翻面,看优化后的回答。
部署后,我们在真实 staging 系统上把过去得分最差的几个问题又问了一遍(gpt-5.5、开启知识库)。以下为逐字回答。
下面是 5 个值得一试的问题,以及一个「好回答长什么样」的对照清单。