LiAIBench · AI 客服评测

我们给 AI 客服做了一套
真实考试，并把它考好了

优化前 BEFORE

60.81

→

优化后 AFTER

69.63

综合得分 +14.5% · 15 类问题全部提升

“几天随便提的问题，都没法高效解决。” —— 这份报告用数据回答这个问题：我们找出客户最常问的问题、给 AI 的回答打分、然后把它优化到更会解决问题，现已上线。

向下滚动 ↓

这是什么

LiAIBench 是给 AI 客服的一套标准考试

题目全部来自 LibCyber 自己的真实客服对话（去除个人信息）。每一道题，AI 的回答都会被一个独立的 AI 阅卷官（gpt-5.5）按 4 个维度打分（0–100），并和当年真人客服的真实回答做对比，重复打 3 次取平均，减少随机性。

🎯

正确性 Correctness

事实准确、不胡编。编造账户信息 = 这项直接判 0。

✅

解决力 Resolution

是否像真人客服一样真正解决问题，覆盖该说的要点。

💬

语气 Tone

是否像 LibCyber 真人团队：用「您」、带「哦」、简短、先给办法。

🌐

语言 Language

用客户的语言回复（绝大多数为中文）。

标准从哪来

来自 89,829 段真实客服对话

我们分析了 LibCyber 在 Crisp 上 2019–2026 年的全部客服记录，找出客户最常问的 15 类问题、以及它们各占多少比例。考试题目就按这个真实比例来出。

89,829

对话总数

602,476

消息总数

2019–2026

时间跨度

高频问题类型

客户最常问什么（占比）

真人客服的「声音」

分析 1,000 段真人回复发现：客服几乎只用敬语「您」（不用「你」）、爱用软化语气词「哦」、消息很短（中位数约 24 字）、开口就先给办法、只有真的服务故障才道歉。优化后的提示词就是要还原这种声音。

怎么测的

先给 8 套现有提示词排名，再逐轮优化冠军

测试条件：模型 gpt-5.5、推理强度 high、快速模式（priority）、开启知识库检索（438 篇文档，已升级到更精准的 text-embedding-3-large 向量）。账户类问题用一个固定测试账号，确保答案可核对、编造能被抓出。

第一步 · 8 套现有提示词「同场竞技」

当时线上实际使用的那条极简提示词只有 60.81 分 —— 排在靠后位置。

第二步 · 逐轮优化，分数一路爬升

您可以自己测

把这几句话发进客服窗口试试

下面是 5 个值得一试的问题，以及一个「好回答长什么样」的对照清单。

“我买了用不了” —— 应当先给最可能的办法，并只问一项关键信息（截图/订单号），而不是甩一长串通用清单。

“有俄罗斯的节点吗” —— 应从知识库回答，或如实说资料里没有，绝不能凭空编一个节点。

“我的邀请返利在哪里看” —— 应报出客户真实的邀请码和返利余额，而不是只说「去菜单里看」。

“作废退钱吗” —— 应说明政策并转人工核实，绝不能自己编造退款批准。

随便一句含糊的，比如“不行了” —— 应礼貌地反问一个关键问题，而不是瞎猜。

好回答对照清单

✅知道答案就自信地从知识库/账户数据直接回答，不含糊推脱。
✅报出客户的真实信息（订阅链接、邀请码、到期日），而不是泛泛地「去菜单看」。
✅简短、礼貌（您）、带软化（哦）、开口先给办法。
✅遇到含糊提问：先给可能的办法 + 只问一个关键问题，不瞎猜。
✅退款等敏感操作：说明 + 转人工，绝不自己编规则。
❌警惕：啰嗦清单、用「你」、编造数字/政策、明明知道却说「无法确认」。

诚实说明：① 阅卷的也是 AI，分数是可靠的「指南针」，并非绝对真理。② 个别问题（如「俄罗斯节点」）受限于知识库内容、而非提示词——给知识库补一篇节点清单文档可进一步提升。③ 账户类问题用固定测试账号验证；接入真实账单面板是后续工作。

我们给 AI 客服做了一套
真实考试，并把它考好了

LiAIBench 是给 AI 客服的一套标准考试

正确性 Correctness

解决力 Resolution

语气 Tone

语言 Language

来自 89,829 段真实客服对话

客户最常问什么（占比）

真人客服的「声音」

先给 8 套现有提示词排名，再逐轮优化冠军

第一步 · 8 套现有提示词「同场竞技」

第二步 · 逐轮优化，分数一路爬升

每一类问题全部变好

同样的问题，回答完全不同

这些是线上系统的真实回答

把这几句话发进客服窗口试试

好回答对照清单

我们给 AI 客服做了一套真实考试，并把它考好了

LiAIBench 是给 AI 客服的一套标准考试

正确性 Correctness

解决力 Resolution

语气 Tone

语言 Language

来自 89,829 段真实客服对话

客户最常问什么（占比）

真人客服的「声音」

先给 8 套现有提示词排名，再逐轮优化冠军

第一步 · 8 套现有提示词「同场竞技」

第二步 · 逐轮优化，分数一路爬升

每一类问题 全部变好

同样的问题，回答完全不同

这些是线上系统的真实回答

把这几句话发进客服窗口试试

好回答对照清单

我们给 AI 客服做了一套
真实考试，并把它考好了

每一类问题全部变好