作者 | Olimpiu Pop
译者 | 刘雅梦
策划 | 丁晓昀
Spotify 在其 Confidence 实验平台之上引入了学习实验(EwL)指标,以衡量有多少测试提供了决策就绪的洞察,而不仅仅是“获胜”的次数。EwL 捕获了跨产品团队学习的数量和质量,帮助他们在规模上做出更快、更明智的产品决策。
在这个框架下,一个成功的实验既是有效的(正确实施,具有健康的流量分配,没有样本不匹配),又是决策就绪的。结果必须明确支持以下三种行动之一:发布、中止或迭代。这个指标将实验的成功重新定义为决策的信息学习——即使结果不是积极的。
实验平台 Confidence 使数百个团队能够同时进行实验。公司的焦点已经发生了变化:从提高测试速度到优化测试质量和业务影响。
实验期望偏差。来源:Spotify 工程网站
EwL 必须满足两个条件:
有效:所有的系统、指标和样本检查都按预期工作。
决策就绪:结果清楚地指示下一步行动——发布:一个指标在没有回归的情况下得到改善。中止:检测到一个回归。中性但有动力:这种效应是中性的,但如果实验足够强大,可以检测到它是否存在。
被归类为“无学习”的实验不能满足这些标准中的一个或多个。。它们被分为三种类型:无效(运行健康检查失败或设置错误)、无动力(在任何关键指标上数据都不足的中性结果)和提前中止(测试在运行中途停止,收集实验者反馈进行分析)。
虽然传统的 A/B 测试框架强调的是胜率,但数据显示,学习是实验健康的一个更强有力的指标。在 Spotify 的研发部门,平均学习率为 64%,胜率约为 12%。
胜率与学习率。进行的实验。来源:Spotify 工程网站
这一差距凸显出,最重要的价值来自于及早发现哪些东西不起作用,或者发现回归——这在拥有数亿用户的成熟产品中尤为重要。许多实验的目标不是直接提高用户粘性,而是降低后端、基础设施或用户体验变化导致的性能下降的风险。
2018 年,活跃的实验团队数量从约 40 个增加到近 300 个。这种增长需要对技术、SDK、分析工具和简化的 UI 进行投资,也需要通过培训、文档和最佳实践对公司文化进行投资。
在主要的应用程序界面上进行了密集的实验:仅手机主屏幕一年内就有 58 个团队进行了 520 次实验。由于带宽测试是有限的,EwL 有助于最有效地分配实验容量。
EwL 汇率是一个战略信号:
稳定的学习率和不断下降的胜率表明实验质量很高,但产品回报在减少,这表明需要更大胆的创新赌注。
高学习率与低业务回报相结合可以揭示错误分配的测试能力,促使表面区域或计划的重新优先级。
在操作上,Confidence 使用 EwL 洞察力将带宽引导到产生最可操作的学习的产品领域,同时减少其他地方的低收益实验。
EwL 结果还可以指导平台的持续改进。当学习率下降时,诊断信号通常表明测试动力不足、集成薄弱或配置摩擦。Spotify 平台团队的回应是:
样本大小计算器,以便更好地规划。
健康检查工具,用于及早发现无效设置。
在无效率较高的跨栈文档和 API 中集成。
在组织层面,诸如增加实验审查员和调整访问控制等举措显著地改善了 EwL 率,提高了实践质量和对结果的信心。
为了维护指标的完整性,我们会对三个关键指标进行监控:
胜率——确保团队仍能取得积极成果。
实验量——保持高吞吐量以维持学习速度。
精度——确保效应值在统计上保持可靠。
例如,降低最小可检测效应大小可能会通过将更多的测试归类为“动力中性”而人为地提高 EwL,但会破坏精度。这些权衡是为了避免以牺牲创新速度为代价来优化 EwL 的。
Spotify 的实验结果。来源:Spotify 工程网站
实验被视为洞察力的驱动因素,而不仅仅是速度的驱动因素。它的 EwL 指标代表 64% 的学习率和 12% 的胜率,强化了避免不利结果和发现中性结果与传统胜利一样能增加商业价值的原则。
一些“没有学习”的实验仍然存在,这表明实验进展得足够快,足以维持创新。关键在于平衡:快速迭代、严格设计以及从每个结果中不断学习。