LiAIBench · AI 客服评测

我们给 AI 客服做了一套
真实考试,并把它考好了

优化前 BEFORE
60.81
优化后 AFTER
69.63
综合得分 +14.5%  ·  15 类问题全部提升
“几天随便提的问题,都没法高效解决。” —— 这份报告用数据回答这个问题:我们找出客户最常问的问题、给 AI 的回答打分、然后把它优化到更会解决问题,现已上线。
向下滚动 ↓
这是什么

LiAIBench 是给 AI 客服的一套标准考试

题目全部来自 LibCyber 自己的真实客服对话(去除个人信息)。每一道题,AI 的回答都会被一个独立的 AI 阅卷官(gpt-5.5)按 4 个维度打分(0–100),并和当年真人客服的真实回答做对比,重复打 3 次取平均,减少随机性。

🎯

正确性 Correctness

事实准确、不胡编。编造账户信息 = 这项直接判 0。

解决力 Resolution

是否像真人客服一样真正解决问题,覆盖该说的要点。

💬

语气 Tone

是否像 LibCyber 真人团队:用「您」、带「哦」、简短、先给办法。

🌐

语言 Language

用客户的语言回复(绝大多数为中文)。

标准从哪来

来自 89,829 段真实客服对话

我们分析了 LibCyber 在 Crisp 上 2019–2026 年的全部客服记录,找出客户最常问的 15 类问题、以及它们各占多少比例。考试题目就按这个真实比例来出。

89,829
对话总数
602,476
消息总数
2019–2026
时间跨度
15
高频问题类型

客户最常问什么(占比)

真人客服的「声音」

分析 1,000 段真人回复发现:客服几乎只用敬语「您」(不用「你」)、爱用软化语气词「哦」、消息很短(中位数约 24 字)、开口就先给办法、只有真的服务故障才道歉。优化后的提示词就是要还原这种声音。

怎么测的

先给 8 套现有提示词排名,再逐轮优化冠军

测试条件:模型 gpt-5.5、推理强度 high、快速模式(priority)、开启知识库检索(438 篇文档,已升级到更精准的 text-embedding-3-large 向量)。账户类问题用一个固定测试账号,确保答案可核对、编造能被抓出。

第一步 · 8 套现有提示词「同场竞技」

当时线上实际使用的那条极简提示词只有 60.81 分 —— 排在靠后位置。

第二步 · 逐轮优化,分数一路爬升

🏆
最终冠军:libcyber_cs_optimized = 69.63 分
比线上旧提示词 60.81 高 +14.5%,比最好的现成预设也高 +3.6%。已上线 staging。
提升了多少

每一类问题 全部变好

下面是「线上旧提示词 → 优化后」每类问题的得分提升。15 类无一下降,提升最大的正是客户体验最差的几类。

优化前优化后右侧为提升百分比
实际效果对比

同样的问题,回答完全不同

点击卡片翻面,看优化后的回答。

上线验证

这些是线上系统的真实回答

部署后,我们在真实 staging 系统上把过去得分最差的几个问题又问了一遍(gpt-5.5、开启知识库)。以下为逐字回答。

您可以自己测

把这几句话发进客服窗口试试

下面是 5 个值得一试的问题,以及一个「好回答长什么样」的对照清单。

“我买了 用不了” —— 应当先给最可能的办法,并只问一项关键信息(截图/订单号),而不是甩一长串通用清单。
“有俄罗斯的节点吗” —— 应从知识库回答,或如实说资料里没有,绝不能凭空编一个节点。
“我的邀请返利在哪里看” —— 应报出客户真实的邀请码和返利余额,而不是只说「去菜单里看」。
“作废退钱吗” —— 应说明政策并转人工核实,绝不能自己编造退款批准。
随便一句含糊的,比如“不行了” —— 应礼貌地反问一个关键问题,而不是瞎猜。

好回答对照清单

  • 知道答案就自信地从知识库/账户数据直接回答,不含糊推脱。
  • 报出客户的真实信息(订阅链接、邀请码、到期日),而不是泛泛地「去菜单看」。
  • 简短、礼貌(您)、带软化(哦)、开口先给办法。
  • 遇到含糊提问:先给可能的办法 + 只问一个关键问题,不瞎猜。
  • 退款等敏感操作:说明 + 转人工,绝不自己编规则。
  • 警惕:啰嗦清单、用「你」、编造数字/政策、明明知道却说「无法确认」。
诚实说明:① 阅卷的也是 AI,分数是可靠的「指南针」,并非绝对真理。② 个别问题(如「俄罗斯节点」)受限于知识库内容、而非提示词——给知识库补一篇节点清单文档可进一步提升。③ 账户类问题用固定测试账号验证;接入真实账单面板是后续工作。