Skip to content

02 - A/B 测试方法论

"The best way to find out if something works is to test it." -- Jeff Bezos

目录


什么是 A/B 测试

定义

A/B 测试(也叫"分桶测试"或"在线对照实验")是一种科学的产品优化方法:将用户随机分为两组(或多组),分别展示不同的版本,然后通过数据比较哪个版本表现更好。

  A/B 测试基本原理
  =============================================

                    全部用户流量
                         |
                    +----+----+
                    | 随机分流  |
                    +----+----+
                    /          \
                   /            \
              50% /              \ 50%
                 /                \
        +-------+------+  +------+-------+
        |   A 组(对照组) |  |  B 组(实验组)  |
        |              |  |              |
        |  原始版本     |  |  修改版本      |
        |  蓝色按钮     |  |  绿色按钮      |
        |              |  |              |
        | 转化率: 3.2%  |  | 转化率: 4.1%  |
        +--------------+  +--------------+
                    \          /
                     \        /
                  +---+------+---+
                  |   数据对比    |
                  |   统计分析    |
                  |              |
                  | B 组胜出!     |
                  | 转化率 +28%   |
                  +--------------+
                         |
                         v
                  全量上线 B 方案

A/B 测试的核心思想

A/B 测试的本质是科学实验方法在产品领域的应用。它的核心思想是:

  1. 控制变量:A 组和 B 组之间只有一个变量不同(你要测试的那个改动)。
  2. 随机分组:用户被随机分到两组,确保两组用户的特征分布一致。
  3. 同时进行:两个版本在同一时间段内对比,排除时间因素的干扰。
  4. 统计验证:用统计方法判断差异是否"显著",而非凭主观感觉。
  为什么需要 A/B 测试?
  =============================================

  场景: 产品经理想把购买按钮从蓝色改成绿色

  +---------------------+     +---------------------+
  |  不做 A/B 测试       |     |  做 A/B 测试         |
  +---------------------+     +---------------------+
  |                     |     |                     |
  | 1. 直接全量改成绿色  |     | 1. 5%用户看绿色按钮  |
  | 2. 观察整体数据      |     | 2. 95%用户看蓝色按钮 |
  | 3. 本周转化率涨了!   |     | 3. 对比两组数据      |
  |    但...是因为绿色?  |     | 4. 绿色转化率+15%   |
  |    还是因为节日?     |     |    统计显著 p<0.05  |
  |    还是因为促销?     |     | 5. 结论: 绿色更好    |
  |    还是偶然波动?     |     | 6. 全量上线绿色      |
  |                     |     |                     |
  | 结论: 不确定         |     | 结论: 有统计依据     |
  +---------------------+     +---------------------+

A/B 测试的完整流程

一个完整的 A/B 测试包含七个步骤,下面逐一详解。

  A/B 测试完整流程
  =============================================

  +--------+    +---------+    +----------+    +--------+
  | Step 1 | -> | Step 2  | -> | Step 3   | -> | Step 4 |
  | 提出   |    | 设计    |    | 确定样本  |    | 上线   |
  | 假设   |    | 实验    |    | 量与时间  |    | 分流   |
  +--------+    +---------+    +----------+    +--------+
                                                    |
       +--------------------------------------------+
       |
       v
  +--------+    +---------+    +----------+
  | Step 5 | -> | Step 6  | -> | Step 7   |
  | 收集   |    | 统计    |    | 得出     |
  | 数据   |    | 分析    |    | 结论     |
  +--------+    +---------+    +----------+

Step 1: 提出假设

好的 A/B 测试从一个清晰的假设开始。假设的标准格式是:

如果我们做了 [某个改动],那么 [某个指标] 会 [提升/降低] [预期幅度],因为 [背后的逻辑]。

举例

假设好/坏评价
"如果我们把注册按钮从灰色改成橙色,那么注册转化率会提升10%,因为橙色更醒目更容易吸引用户注意。"具体、可衡量、有逻辑
"如果我们简化结账流程从5步减到3步,那么订单完成率会提升15%,因为减少步骤降低了用户的操作成本和流失概率。"有数据支撑的假设
"改一下首页看看效果"没有明确假设和预期
"让界面更好看"太模糊,无法衡量

Step 2: 设计实验

确定对照组(Control)和实验组(Treatment)的具体方案:

  实验设计示例: 优化商品详情页
  =============================================

  +---------------------------+  +---------------------------+
  |     A 组 (对照组)          |  |     B 组 (实验组)          |
  |     Control               |  |     Treatment             |
  +---------------------------+  +---------------------------+
  |                           |  |                           |
  |  +---------------------+  |  |  +---------------------+  |
  |  |   商品图片 (3张)      |  |  |   商品图片 (5张)       |  |
  |  +---------------------+  |  |  +---------------------+  |
  |                           |  |                           |
  |  商品名称                  |  |  商品名称                  |
  |  价格: 199 元              |  |  价格: 199 元              |
  |                           |  |  +-------------------+    |
  |                           |  |  | 已有 2,341 人购买  |    |
  |                           |  |  | ★★★★☆ 4.5分      |    |
  |                           |  |  +-------------------+    |
  |  商品描述...               |  |  商品描述...               |
  |                           |  |                           |
  |  [  加入购物车  ]          |  |  [  加入购物车  ]          |
  |                           |  |                           |
  +---------------------------+  +---------------------------+
  |                           |  |                           |
  | 变量: 原版详情页            |  | 变量: 增加社会证明          |
  |       (无评价信息)          |  |       (购买人数+评分)      |
  +---------------------------+  +---------------------------+

  核心指标: 加购率
  辅助指标: 详情页停留时长, 跳出率

实验设计要点

  1. 只改一个变量:A 组和 B 组之间只有一个差异(上例中是"是否展示社会证明")。
  2. 明确核心指标:每个实验只关注一个主要指标(上例中是"加购率")。
  3. 定义辅助指标:同时监控辅助指标,确保没有负面影响。
  4. 设定护栏指标:不希望恶化的指标(如崩溃率、页面加载时间)。

Step 3: 确定样本量与实验时间

这一步非常关键。样本量太小,结果不可靠;时间太短,数据不充分。

  影响所需样本量的因素
  =============================================

  +-------------------+     +-------------------+
  |  基线转化率         |     |  最小可检测效应     |
  |  (当前的转化率)     |     |  (MDE)             |
  |                   |     |  (期望检测到的       |
  |  基线越低,         |     |   最小提升幅度)      |
  |  需要样本越多       |     |                   |
  +--------+----------+     |  MDE 越小,         |
           |                |  需要样本越多        |
           |                +--------+----------+
           |                         |
           v                         v
       +---+-------------------------+---+
       |      所需样本量计算              |
       |                                |
       |  统计功效 (Power) = 80%         |
       |  显著性水平 (alpha) = 5%        |
       |                                |
       |  常用公式(简化版):               |
       |  n >= 16 * p*(1-p) / MDE^2     |
       |                                |
       |  p = 基线转化率                  |
       |  MDE = 最小可检测效应(相对值)     |
       +--------------------------------+

样本量参考表(假设 alpha=0.05, power=0.8):

基线转化率期望提升幅度每组所需样本量总样本量
5%+10%(到5.5%)~58,000~116,000
5%+20%(到6.0%)~15,000~30,000
10%+10%(到11%)~29,000~58,000
10%+20%(到12%)~7,500~15,000
20%+10%(到22%)~12,500~25,000
20%+20%(到24%)~3,200~6,400

实验时间的确定

  • 根据日均流量计算需要多少天才能达到所需样本量。
  • 最少运行 1-2 个完整的业务周期(通常是1-2周)以覆盖周末效应。
  • 避开大促、节假日等特殊时期。

Step 4: 上线分流

  分流方案
  =============================================

  方案一: 基于用户ID分流 (推荐)

  用户ID --> Hash函数 --> 取模 --> 分组
  user_123 --> hash("user_123") --> 7612 % 100 --> 12 --> A组
  user_456 --> hash("user_456") --> 3289 % 100 --> 89 --> B组

  优点: 同一用户始终看到相同版本,体验一致
  缺点: 需要用户登录

  ---

  方案二: 基于Cookie分流

  优点: 不需要用户登录
  缺点: 用户清除Cookie后可能切换组别

  ---

  分流比例选择:
  +------------------------------------------+
  | 风险低的改动: 50% A : 50% B (标准)        |
  | 风险高的改动: 90% A : 10% B (先小流量验证) |
  | 多组实验:     34% A : 33% B : 33% C      |
  +------------------------------------------+

Step 5: 收集数据

实验上线后,需要耐心等待数据积累,同时做好监控:

  数据收集阶段的关注点
  =============================================

  +--------------------------------------------+
  |  每日检查清单                                 |
  +--------------------------------------------+
  |                                            |
  |  [x] 分流比例是否正确?(A/B各约50%)          |
  |  [x] 两组用户特征分布是否一致?               |
  |      (年龄、地域、新老用户比例等)              |
  |  [x] 数据采集是否正常?(有无异常值)            |
  |  [x] 护栏指标是否正常?(崩溃率、加载时间等)    |
  |  [ ] 结果是否显著?(等到预设时间再判断!)       |
  |                                            |
  +--------------------------------------------+

  重要提醒:
  +-------------------------------------------+
  |  !! 不要提前偷看结果并做决策 !!              |
  |  !! 等到预设的实验结束时间再分析 !!          |
  |  (原因详见"常见陷阱"部分)                    |
  +-------------------------------------------+

Step 6: 统计分析

实验结束后,进行严格的统计分析:

  统计分析的核心输出
  =============================================

  实验结果报告
  +--------------------------------------------+
  |                                            |
  |  实验名称: 商品详情页社会证明测试             |
  |  实验周期: 2024/3/1 - 2024/3/14 (14天)     |
  |  总样本量: 45,230 (A组: 22,615 / B组:22,615)|
  |                                            |
  |  +------+----------+----------+-----------+|
  |  | 指标  |  A组(对照)| B组(实验) | 提升幅度  ||
  |  +------+----------+----------+-----------+|
  |  | 加购率 |  12.3%   |  14.1%   | +14.6%   ||
  |  | p值   |    --    |    --    | 0.003    ||
  |  | 置信区间|   --    |    --    | [6%,23%] ||
  |  +------+----------+----------+-----------+|
  |                                            |
  |  结论: 实验组显著优于对照组                    |
  |  建议: 全量上线 B 方案                        |
  |                                            |
  +--------------------------------------------+

Step 7: 得出结论

根据分析结果做出决策:

实验结果决策后续动作
实验组显著优于对照组采纳全量上线实验方案
对照组显著优于实验组否决保持原方案,分析原因
无显著差异保持保持原方案或重新设计实验
核心指标提升但护栏指标恶化谨慎权衡利弊后决策

统计显著性基础

通俗理解 p 值

p 值回答的问题是:如果 A 组和 B 组实际上没有区别(改动无效),我们观察到的这个差异纯粹是偶然出现的概率有多大?

  用抛硬币来理解 p 值
  =============================================

  假设你怀疑一枚硬币不公平(被做了手脚)

  实验: 抛 100 次

  结果: 正面 58 次, 反面 42 次

  问题: 这枚硬币真的不公平吗?
        还是公平硬币偶然抛出了 58 次正面?

  统计检验:
  +-------------------------------------------------+
  |  零假设 (H0): 硬币是公平的 (正面概率 = 50%)       |
  |  备择假设 (H1): 硬币不公平 (正面概率 != 50%)      |
  |                                                 |
  |  p 值 = 0.13                                    |
  |                                                 |
  |  解读: 如果硬币真的是公平的,                       |
  |        有 13% 的概率会抛出 58 次或更多次正面        |
  |                                                 |
  |  13% > 5% (我们的显著性阈值)                      |
  |                                                 |
  |  结论: 不能拒绝零假设                              |
  |        即: 证据不足以证明硬币不公平                  |
  +-------------------------------------------------+

p 值的解读

p 值范围含义在 A/B 测试中的解读
p < 0.01非常显著非常有信心认为 A/B 有差异
p < 0.05显著有较强信心认为 A/B 有差异(最常用的阈值)
0.05 < p < 0.10边际显著有一定信号,但证据不够充分
p > 0.10不显著无法判断 A/B 有差异

置信区间

置信区间告诉你实验效果的可能范围。

  置信区间示意
  =============================================

  实验结果: B组转化率比A组高 14.6%

  95%置信区间: [6%, 23%]

  --|--------[======*======]--------|--
   -5%       6%    14.6%   23%      30%

   解读:
   我们有 95% 的信心认为,
   B组的真实提升幅度在 6% 到 23% 之间

   [======*======]
   ^      ^      ^
   |      |      |
   下限  最优估计  上限
  (最差情况)      (最好情况)

   如果置信区间的下限 > 0,说明 B 组"显著"更好
   如果置信区间包含 0,说明差异可能不存在

两类错误

  统计检验中的两类错误
  =============================================

                    真实情况
                    改动有效     改动无效
                  +-----------+-----------+
  检验    拒绝H0  |  正确!     | I类错误   |
  结果   (认为有效)| (真阳性)   | (假阳性)   |
                  |           | alpha=5%  |
                  +-----------+-----------+
         不拒绝H0 | II类错误   |  正确!     |
        (认为无效) | (假阴性)   | (真阴性)   |
                  | beta=20%  |           |
                  +-----------+-----------+

  I 类错误 (alpha): 改动实际无效,但实验说有效
    --> 后果: 上线了一个没用的改动
    --> 控制: 设定 alpha = 0.05 (最多5%概率犯此错)

  II类错误 (beta): 改动实际有效,但实验没检测出来
    --> 后果: 错过了一个好的改动
    --> 控制: 设定 power = 1-beta = 0.80
              (确保80%概率能检测到真实效果)

PM 需要记住的统计要点

  +------------------------------------------------------+
  |  PM 的统计备忘清单                                      |
  +------------------------------------------------------+
  |                                                      |
  |  1. p < 0.05 才算"统计显著"                            |
  |     (行业通用标准,不必纠结)                             |
  |                                                      |
  |  2. 统计功效(power)通常设为 80%                         |
  |     (即有80%概率检测到真实效果)                          |
  |                                                      |
  |  3. 样本量要提前计算好                                  |
  |     (不要等实验"看起来显著了"就停)                       |
  |                                                      |
  |  4. "没有显著差异" != "没有差异"                         |
  |     (可能只是样本量不够)                                |
  |                                                      |
  |  5. 实际业务意义 > 统计显著性                            |
  |     (转化率提升0.01%即使显著也没业务价值)                 |
  |                                                      |
  +------------------------------------------------------+

常见 A/B 测试场景

场景总览

测试维度具体案例核心指标预期效果
UI/视觉按钮颜色:绿色 vs 橙色点击率颜色对比影响注意力
UI/视觉首页 Banner 布局点击率、停留时长视觉层次影响浏览行为
文案"立即购买" vs "马上抢购"点击率、转化率措辞影响用户心理
文案注册页提示语注册完成率降低用户疑虑
定价月付 vs 年付优先展示ARPU、付费率定价策略影响收入
定价免费试用 7天 vs 14天付费转化率试用时长影响转化
流程注册3步 vs 注册1步注册完成率流程简化影响转化
流程结账需要登录 vs 游客结账订单完成率降低下单门槛
算法推荐算法 V1 vs V2点击率、停留时长算法优化提升体验
算法搜索排序调整搜索结果点击率排序优化提升效率
功能有无实时聊天客服转化率、客诉率客服影响购买决策
功能视频评价 vs 文字评价转化率、退货率评价形式影响信任度

详细案例:注册流程优化

  案例: 注册流程 A/B 测试
  =============================================

  背景: 当前注册完成率 40%,希望提升到 50%

  +------- A 组 (对照组) --------+
  |                              |
  |  Step 1: 输入手机号           |
  |  Step 2: 验证短信码           |
  |  Step 3: 设置密码            |
  |  Step 4: 填写昵称            |
  |  Step 5: 选择兴趣标签         |
  |                              |
  |  完成率: 40%                  |
  |  平均耗时: 3分15秒            |
  +------------------------------+

  +------- B 组 (实验组) --------+
  |                              |
  |  Step 1: 输入手机号           |
  |  Step 2: 验证短信码           |
  |  (密码改为首次登录时设置)       |
  |  (昵称和兴趣标签变为可选)       |
  |                              |
  |  完成率: 62%                  |
  |  平均耗时: 1分20秒            |
  +------------------------------+

  结果: 注册完成率提升 55%
  p值: 0.001 (非常显著)

  但同时发现:
  - B组 3日留存率下降 5%
  - B组用户资料完整度下降 40%

  决策: 综合评估后仍采用 B 方案
  原因: 注册转化的提升远大于留存的小幅下降
  后续: 在注册后24小时内引导用户补全资料

A/B 测试常见陷阱

陷阱 1: 样本量不足

  样本量不足的危害
  =============================================

  想象你在判断一枚硬币是否公平:

  只抛 10 次:
  正面 7 次 (70%) --> 觉得硬币不公平?
  但这完全可能是偶然!

  抛 10,000 次:
  正面 5,350 次 (53.5%) --> 更可靠的判断

  +----------------------------------------------+
  |  真实场景:                                     |
  |                                              |
  |  某功能测试只跑了 2 天                          |
  |  A组: 500 人, 转化率 4.2%                      |
  |  B组: 480 人, 转化率 5.1%                      |
  |                                              |
  |  PM: "B组高了 21%! 赶紧全量!"                   |
  |                                              |
  |  实际: 样本量太小, 这个差异可能只是随机波动       |
  |        p值 = 0.48 (远未达到显著性)              |
  |        需要至少 15,000 人/组 才能检测            |
  |        10% 的差异                               |
  +----------------------------------------------+

如何避免:实验开始前用样本量计算器确定最小样本量,不达标不下结论。

陷阱 2: 观察时间太短

  时间太短导致的偏差
  =============================================

  转化率
  |
  |        x
  |       x x          +-- 工作日高峰
  |      x   x        |
  | x   x     x   x   x
  |  x x       x x   x  x
  |   x         x       x
  +--+--+--+--+--+--+--+--+--
    Mon Tue Wed Thu Fri Sat Sun Mon

  如果只测 Mon-Wed,你看到的是上升趋势
  如果只测 Fri-Sun,你看到的是下降趋势
  只有测完至少一个完整周期(7天)才能得到可靠结论

  建议:
  - 最少运行 7 天 (覆盖工作日+周末)
  - 理想运行 14 天 (覆盖两个完整周期)
  - 避开节假日和大促

陷阱 3: 多变量混淆

  多变量混淆的问题
  =============================================

  错误做法: 同时改了多个变量

  +---- A 组 (对照) ----+    +---- B 组 (实验) ----+
  |                     |    |                     |
  |  蓝色按钮            |    |  绿色按钮            |
  |  "立即购买"          |    |  "马上抢购"          |
  |  按钮在页面底部       |    |  按钮在页面顶部       |
  |                     |    |                     |
  +---------------------+    +---------------------+

  结果: B组转化率高 20%

  问题: 到底是哪个改动带来的提升?
  - 是颜色? 文案? 还是位置?
  - 无法判断!
  - 如果绿色有帮助,但顶部位置有害呢?
  - 可能只优化了颜色就能提升 30%!

  正确做法: 每次只改一个变量
  或者使用多变量测试(MVT)来分析各因素影响

陷阱 4: 辛普森悖论

辛普森悖论是指:整体数据显示的趋势,与按子群体分析时显示的趋势完全相反。

  辛普森悖论示例
  =============================================

  整体数据:
  +----------+--------+--------+----------+
  |          | A组     | B组    | 谁更好?  |
  +----------+--------+--------+----------+
  | 总用户    | 10,000 | 10,000 |          |
  | 总转化    | 450    | 500    |          |
  | 转化率    | 4.5%   | 5.0%   | B组!     |
  +----------+--------+--------+----------+

  PM: "B组赢了! 全量上B!"

  等等...按用户类型拆分看看:

  新用户(占比):
  +----------+--------+--------+----------+
  |          | A组     | B组    | 谁更好?  |
  +----------+--------+--------+----------+
  | 新用户数  | 8,000  | 4,000  |          |
  | 新用户转化| 400    | 180    |          |
  | 转化率    | 5.0%   | 4.5%   | A组!     |
  +----------+--------+--------+----------+

  老用户(占比):
  +----------+--------+--------+----------+
  |          | A组     | B组    | 谁更好?  |
  +----------+--------+--------+----------+
  | 老用户数  | 2,000  | 6,000  |          |
  | 老用户转化| 50     | 320    |          |
  | 转化率    | 2.5%   | 5.3%   | 差距不大  |
  +----------+--------+--------+----------+

  真相: B组整体转化率高是因为分到了更多老用户
        (老用户天然转化率更高)
        分群看,A组对新用户更好!
        分流出了问题!

如何避免

  1. 检查分流的随机性(AA 测试)。
  2. 按关键维度(新/老用户、渠道、设备等)分别查看结果。
  3. 使用分层分析或回归分析控制混淆变量。

陷阱 5: 偷看数据(Peeking Problem)

  偷看数据的问题
  =============================================

  实验计划运行 14 天
  但 PM 每天都去看数据...

  Day 1: A组 3.1%, B组 3.5% --> "B组好! 但再等等"
  Day 2: A组 3.2%, B组 3.0% --> "啊, A组追上了"
  Day 3: A组 3.0%, B组 3.8% --> "B组又好了! p=0.04!"
         PM: "p<0.05了! 显著了! 全量上B!"

  问题:
  +---------------------------------------------------+
  |  如果你每天都检查一次, 做14次检验:                    |
  |                                                   |
  |  每次检验的误报率(alpha) = 5%                       |
  |  14次检验中至少一次误报的概率:                        |
  |  1 - (1-0.05)^14 = 1 - 0.49 = 51% !!!            |
  |                                                   |
  |  你有 51% 的概率得到一个"假阳性"结果!                |
  +---------------------------------------------------+

  这就像买彩票:
  买一次中奖概率很低
  但买14次中奖的概率就大多了

  正确做法:
  1. 提前确定实验结束时间
  2. 只在预设时间点分析数据
  3. 或使用"序贯检验"方法(对多次查看做统计修正)

如何避免

  1. 实验开始前设定结束日期,严格遵守。
  2. 如果必须提前查看,使用 Bonferroni 修正或序贯分析方法。
  3. 建立团队纪律:中途只检查护栏指标和数据质量,不看核心指标的 p 值。

多变量测试 MVT 简介

什么是多变量测试

多变量测试(Multivariate Testing,MVT)是 A/B 测试的扩展,允许同时测试多个变量的不同组合。

  A/B 测试 vs 多变量测试
  =============================================

  A/B 测试: 一次只测一个变量
  +------+   +------+
  | A组   |   | B组   |
  | 蓝按钮 |   | 绿按钮 |
  +------+   +------+
  2 个版本

  ---

  多变量测试: 同时测试多个变量的组合

  变量1: 按钮颜色 (蓝/绿)
  变量2: 按钮文案 ("购买"/"立即购买")
  变量3: 按钮大小 (小/大)

  组合数 = 2 x 2 x 2 = 8 个版本

  +--------+--------+--------+--------+
  | 组合1   | 组合2   | 组合3   | 组合4   |
  | 蓝+购买 | 蓝+立即 | 绿+购买 | 绿+立即 |
  | +小     | 购买+小 | +小     | 购买+小 |
  +--------+--------+--------+--------+
  | 组合5   | 组合6   | 组合7   | 组合8   |
  | 蓝+购买 | 蓝+立即 | 绿+购买 | 绿+立即 |
  | +大     | 购买+大 | +大     | 购买+大 |
  +--------+--------+--------+--------+

MVT 的优缺点

维度A/B 测试多变量测试 (MVT)
变量数1 个多个
版本数2 个指数级增长
所需样本量较小非常大
实验时间较短较长
分析复杂度简单复杂
结论X 有效/无效各因素的独立效果和交互效果
适用场景功能/策略验证页面元素组合优化
流量要求中等非常大

MVT 的适用场景

  什么时候用 MVT
  =============================================

  适合 MVT:
  +-------------------------------------------+
  | - 网站着陆页优化 (标题+图片+CTA按钮)        |
  | - 邮件营销优化 (主题行+正文+CTA)            |
  | - 高流量页面的精细化调优                     |
  | - 需要了解各因素间交互效应的场景              |
  +-------------------------------------------+

  不适合 MVT:
  +-------------------------------------------+
  | - 流量不够大 (< 10万/周)                   |
  | - 变量太多 (组合数爆炸)                     |
  | - 需要快速得出结论                          |
  | - 测试大的功能/策略变更                      |
  +-------------------------------------------+

  实践建议:
  +-------------------------------------------+
  | 1. 新手先掌握 A/B 测试                      |
  | 2. 有充足流量时再尝试 MVT                    |
  | 3. MVT 中变量不超过 3 个                    |
  | 4. 优先用 A/B 测试验证大方向                 |
  |    再用 MVT 优化细节                        |
  +-------------------------------------------+

本节总结

  A/B 测试知识总结
  =============================================

  +--------------------------------------------+
  |                                            |
  |  核心流程:                                   |
  |  假设 -> 设计 -> 样本量 -> 分流 ->           |
  |  收集数据 -> 统计分析 -> 结论                 |
  |                                            |
  |  统计基础:                                   |
  |  - p < 0.05 = 显著                          |
  |  - 置信区间不含 0 = 有效果                    |
  |  - Power >= 80% = 够灵敏                    |
  |                                            |
  |  五大陷阱:                                   |
  |  1. 样本量不足 --> 提前计算样本量              |
  |  2. 时间太短   --> 至少跑完一个业务周期         |
  |  3. 多变量混淆 --> 每次只改一个变量            |
  |  4. 辛普森悖论 --> 分群分析验证                |
  |  5. 偷看数据   --> 严格遵守实验结束时间         |
  |                                            |
  +--------------------------------------------+

关键要点回顾

  1. A/B 测试是产品优化最科学的方法,核心是控制变量随机分组
  2. 好的 A/B 测试从一个清晰的假设开始。
  3. 样本量实验时间要提前计算,不能"差不多了就停"。
  4. 理解 p 值置信区间的基本概念,能看懂实验报告。
  5. 牢记五大常见陷阱,避免得出错误结论。
  6. 掌握 A/B 测试后,再了解多变量测试作为进阶工具。

下一节:数据分析工具 -- 学习产品经理常用的数据分析工具和 SQL 基础。