02 - A/B 测试方法论

"The best way to find out if something works is to test it." -- Jeff Bezos

什么是 A/B 测试

定义

A/B 测试（也叫"分桶测试"或"在线对照实验"）是一种科学的产品优化方法：将用户随机分为两组（或多组），分别展示不同的版本，然后通过数据比较哪个版本表现更好。

  A/B 测试基本原理
  =============================================

                    全部用户流量
                         |
                    +----+----+
                    | 随机分流  |
                    +----+----+
                    /          \
                   /            \
              50% /              \ 50%
                 /                \
        +-------+------+  +------+-------+
        |   A 组(对照组) |  |  B 组(实验组)  |
        |              |  |              |
        |  原始版本     |  |  修改版本      |
        |  蓝色按钮     |  |  绿色按钮      |
        |              |  |              |
        | 转化率: 3.2%  |  | 转化率: 4.1%  |
        +--------------+  +--------------+
                    \          /
                     \        /
                  +---+------+---+
                  |   数据对比    |
                  |   统计分析    |
                  |              |
                  | B 组胜出!     |
                  | 转化率 +28%   |
                  +--------------+
                         |
                         v
                  全量上线 B 方案

A/B 测试的核心思想

A/B 测试的本质是科学实验方法在产品领域的应用。它的核心思想是：

控制变量：A 组和 B 组之间只有一个变量不同（你要测试的那个改动）。
随机分组：用户被随机分到两组，确保两组用户的特征分布一致。
同时进行：两个版本在同一时间段内对比，排除时间因素的干扰。
统计验证：用统计方法判断差异是否"显著"，而非凭主观感觉。

  为什么需要 A/B 测试？
  =============================================

  场景: 产品经理想把购买按钮从蓝色改成绿色

  +---------------------+     +---------------------+
  |  不做 A/B 测试       |     |  做 A/B 测试         |
  +---------------------+     +---------------------+
  |                     |     |                     |
  | 1. 直接全量改成绿色  |     | 1. 5%用户看绿色按钮  |
  | 2. 观察整体数据      |     | 2. 95%用户看蓝色按钮 |
  | 3. 本周转化率涨了!   |     | 3. 对比两组数据      |
  |    但...是因为绿色?  |     | 4. 绿色转化率+15%   |
  |    还是因为节日?     |     |    统计显著 p<0.05  |
  |    还是因为促销?     |     | 5. 结论: 绿色更好    |
  |    还是偶然波动?     |     | 6. 全量上线绿色      |
  |                     |     |                     |
  | 结论: 不确定         |     | 结论: 有统计依据     |
  +---------------------+     +---------------------+

A/B 测试的完整流程

一个完整的 A/B 测试包含七个步骤，下面逐一详解。

  A/B 测试完整流程
  =============================================

  +--------+    +---------+    +----------+    +--------+
  | Step 1 | -> | Step 2  | -> | Step 3   | -> | Step 4 |
  | 提出   |    | 设计    |    | 确定样本  |    | 上线   |
  | 假设   |    | 实验    |    | 量与时间  |    | 分流   |
  +--------+    +---------+    +----------+    +--------+
                                                    |
       +--------------------------------------------+
       |
       v
  +--------+    +---------+    +----------+
  | Step 5 | -> | Step 6  | -> | Step 7   |
  | 收集   |    | 统计    |    | 得出     |
  | 数据   |    | 分析    |    | 结论     |
  +--------+    +---------+    +----------+

Step 1: 提出假设

好的 A/B 测试从一个清晰的假设开始。假设的标准格式是：

如果我们做了 [某个改动]，那么 [某个指标] 会 [提升/降低] [预期幅度]，因为 [背后的逻辑]。

举例：

假设	好/坏	评价
"如果我们把注册按钮从灰色改成橙色，那么注册转化率会提升10%，因为橙色更醒目更容易吸引用户注意。"	好	具体、可衡量、有逻辑
"如果我们简化结账流程从5步减到3步，那么订单完成率会提升15%，因为减少步骤降低了用户的操作成本和流失概率。"	好	有数据支撑的假设
"改一下首页看看效果"	坏	没有明确假设和预期
"让界面更好看"	坏	太模糊，无法衡量

Step 2: 设计实验

确定对照组（Control）和实验组（Treatment）的具体方案：

  实验设计示例: 优化商品详情页
  =============================================

  +---------------------------+  +---------------------------+
  |     A 组 (对照组)          |  |     B 组 (实验组)          |
  |     Control               |  |     Treatment             |
  +---------------------------+  +---------------------------+
  |                           |  |                           |
  |  +---------------------+  |  |  +---------------------+  |
  |  |   商品图片 (3张)      |  |  |   商品图片 (5张)       |  |
  |  +---------------------+  |  |  +---------------------+  |
  |                           |  |                           |
  |  商品名称                  |  |  商品名称                  |
  |  价格: 199 元              |  |  价格: 199 元              |
  |                           |  |  +-------------------+    |
  |                           |  |  | 已有 2,341 人购买  |    |
  |                           |  |  | ★★★★☆ 4.5分      |    |
  |                           |  |  +-------------------+    |
  |  商品描述...               |  |  商品描述...               |
  |                           |  |                           |
  |  [  加入购物车  ]          |  |  [  加入购物车  ]          |
  |                           |  |                           |
  +---------------------------+  +---------------------------+
  |                           |  |                           |
  | 变量: 原版详情页            |  | 变量: 增加社会证明          |
  |       (无评价信息)          |  |       (购买人数+评分)      |
  +---------------------------+  +---------------------------+

  核心指标: 加购率
  辅助指标: 详情页停留时长, 跳出率

实验设计要点：

只改一个变量：A 组和 B 组之间只有一个差异（上例中是"是否展示社会证明"）。
明确核心指标：每个实验只关注一个主要指标（上例中是"加购率"）。
定义辅助指标：同时监控辅助指标，确保没有负面影响。
设定护栏指标：不希望恶化的指标（如崩溃率、页面加载时间）。

Step 3: 确定样本量与实验时间

这一步非常关键。样本量太小，结果不可靠；时间太短，数据不充分。

  影响所需样本量的因素
  =============================================

  +-------------------+     +-------------------+
  |  基线转化率         |     |  最小可检测效应     |
  |  (当前的转化率)     |     |  (MDE)             |
  |                   |     |  (期望检测到的       |
  |  基线越低,         |     |   最小提升幅度)      |
  |  需要样本越多       |     |                   |
  +--------+----------+     |  MDE 越小,         |
           |                |  需要样本越多        |
           |                +--------+----------+
           |                         |
           v                         v
       +---+-------------------------+---+
       |      所需样本量计算              |
       |                                |
       |  统计功效 (Power) = 80%         |
       |  显著性水平 (alpha) = 5%        |
       |                                |
       |  常用公式(简化版):               |
       |  n >= 16 * p*(1-p) / MDE^2     |
       |                                |
       |  p = 基线转化率                  |
       |  MDE = 最小可检测效应(相对值)     |
       +--------------------------------+

样本量参考表（假设 alpha=0.05, power=0.8）：

基线转化率	期望提升幅度	每组所需样本量	总样本量
5%	+10%（到5.5%）	~58,000	~116,000
5%	+20%（到6.0%）	~15,000	~30,000
10%	+10%（到11%）	~29,000	~58,000
10%	+20%（到12%）	~7,500	~15,000
20%	+10%（到22%）	~12,500	~25,000
20%	+20%（到24%）	~3,200	~6,400

实验时间的确定：

根据日均流量计算需要多少天才能达到所需样本量。
最少运行 1-2 个完整的业务周期（通常是1-2周）以覆盖周末效应。
避开大促、节假日等特殊时期。

Step 4: 上线分流

  分流方案
  =============================================

  方案一: 基于用户ID分流 (推荐)

  用户ID --> Hash函数 --> 取模 --> 分组
  user_123 --> hash("user_123") --> 7612 % 100 --> 12 --> A组
  user_456 --> hash("user_456") --> 3289 % 100 --> 89 --> B组

  优点: 同一用户始终看到相同版本，体验一致
  缺点: 需要用户登录

  ---

  方案二: 基于Cookie分流

  优点: 不需要用户登录
  缺点: 用户清除Cookie后可能切换组别

  ---

  分流比例选择:
  +------------------------------------------+
  | 风险低的改动: 50% A : 50% B (标准)        |
  | 风险高的改动: 90% A : 10% B (先小流量验证) |
  | 多组实验:     34% A : 33% B : 33% C      |
  +------------------------------------------+

Step 5: 收集数据

实验上线后，需要耐心等待数据积累，同时做好监控：

  数据收集阶段的关注点
  =============================================

  +--------------------------------------------+
  |  每日检查清单                                 |
  +--------------------------------------------+
  |                                            |
  |  [x] 分流比例是否正确？(A/B各约50%)          |
  |  [x] 两组用户特征分布是否一致？               |
  |      (年龄、地域、新老用户比例等)              |
  |  [x] 数据采集是否正常？(有无异常值)            |
  |  [x] 护栏指标是否正常？(崩溃率、加载时间等)    |
  |  [ ] 结果是否显著？(等到预设时间再判断!)       |
  |                                            |
  +--------------------------------------------+

  重要提醒:
  +-------------------------------------------+
  |  !! 不要提前偷看结果并做决策 !!              |
  |  !! 等到预设的实验结束时间再分析 !!          |
  |  (原因详见"常见陷阱"部分)                    |
  +-------------------------------------------+

Step 6: 统计分析

实验结束后，进行严格的统计分析：

  统计分析的核心输出
  =============================================

  实验结果报告
  +--------------------------------------------+
  |                                            |
  |  实验名称: 商品详情页社会证明测试             |
  |  实验周期: 2024/3/1 - 2024/3/14 (14天)     |
  |  总样本量: 45,230 (A组: 22,615 / B组:22,615)|
  |                                            |
  |  +------+----------+----------+-----------+|
  |  | 指标  |  A组(对照)| B组(实验) | 提升幅度  ||
  |  +------+----------+----------+-----------+|
  |  | 加购率 |  12.3%   |  14.1%   | +14.6%   ||
  |  | p值   |    --    |    --    | 0.003    ||
  |  | 置信区间|   --    |    --    | [6%,23%] ||
  |  +------+----------+----------+-----------+|
  |                                            |
  |  结论: 实验组显著优于对照组                    |
  |  建议: 全量上线 B 方案                        |
  |                                            |
  +--------------------------------------------+

Step 7: 得出结论

根据分析结果做出决策：

实验结果	决策	后续动作
实验组显著优于对照组	采纳	全量上线实验方案
对照组显著优于实验组	否决	保持原方案，分析原因
无显著差异	保持	保持原方案或重新设计实验
核心指标提升但护栏指标恶化	谨慎	权衡利弊后决策

统计显著性基础

通俗理解 p 值

p 值回答的问题是：如果 A 组和 B 组实际上没有区别（改动无效），我们观察到的这个差异纯粹是偶然出现的概率有多大？

  用抛硬币来理解 p 值
  =============================================

  假设你怀疑一枚硬币不公平(被做了手脚)

  实验: 抛 100 次

  结果: 正面 58 次, 反面 42 次

  问题: 这枚硬币真的不公平吗？
        还是公平硬币偶然抛出了 58 次正面？

  统计检验:
  +-------------------------------------------------+
  |  零假设 (H0): 硬币是公平的 (正面概率 = 50%)       |
  |  备择假设 (H1): 硬币不公平 (正面概率 != 50%)      |
  |                                                 |
  |  p 值 = 0.13                                    |
  |                                                 |
  |  解读: 如果硬币真的是公平的,                       |
  |        有 13% 的概率会抛出 58 次或更多次正面        |
  |                                                 |
  |  13% > 5% (我们的显著性阈值)                      |
  |                                                 |
  |  结论: 不能拒绝零假设                              |
  |        即: 证据不足以证明硬币不公平                  |
  +-------------------------------------------------+

p 值的解读：

p 值范围	含义	在 A/B 测试中的解读
p < 0.01	非常显著	非常有信心认为 A/B 有差异
p < 0.05	显著	有较强信心认为 A/B 有差异（最常用的阈值）
0.05 < p < 0.10	边际显著	有一定信号，但证据不够充分
p > 0.10	不显著	无法判断 A/B 有差异

置信区间

置信区间告诉你实验效果的可能范围。

  置信区间示意
  =============================================

  实验结果: B组转化率比A组高 14.6%

  95%置信区间: [6%, 23%]

  --|--------[======*======]--------|--
   -5%       6%    14.6%   23%      30%

   解读:
   我们有 95% 的信心认为,
   B组的真实提升幅度在 6% 到 23% 之间

   [======*======]
   ^      ^      ^
   |      |      |
   下限  最优估计  上限
  (最差情况)      (最好情况)

   如果置信区间的下限 > 0，说明 B 组"显著"更好
   如果置信区间包含 0，说明差异可能不存在

两类错误

  统计检验中的两类错误
  =============================================

                    真实情况
                    改动有效     改动无效
                  +-----------+-----------+
  检验    拒绝H0  |  正确!     | I类错误   |
  结果   (认为有效)| (真阳性)   | (假阳性)   |
                  |           | alpha=5%  |
                  +-----------+-----------+
         不拒绝H0 | II类错误   |  正确!     |
        (认为无效) | (假阴性)   | (真阴性)   |
                  | beta=20%  |           |
                  +-----------+-----------+

  I 类错误 (alpha): 改动实际无效，但实验说有效
    --> 后果: 上线了一个没用的改动
    --> 控制: 设定 alpha = 0.05 (最多5%概率犯此错)

  II类错误 (beta): 改动实际有效，但实验没检测出来
    --> 后果: 错过了一个好的改动
    --> 控制: 设定 power = 1-beta = 0.80
              (确保80%概率能检测到真实效果)

PM 需要记住的统计要点

  +------------------------------------------------------+
  |  PM 的统计备忘清单                                      |
  +------------------------------------------------------+
  |                                                      |
  |  1. p < 0.05 才算"统计显著"                            |
  |     (行业通用标准，不必纠结)                             |
  |                                                      |
  |  2. 统计功效(power)通常设为 80%                         |
  |     (即有80%概率检测到真实效果)                          |
  |                                                      |
  |  3. 样本量要提前计算好                                  |
  |     (不要等实验"看起来显著了"就停)                       |
  |                                                      |
  |  4. "没有显著差异" != "没有差异"                         |
  |     (可能只是样本量不够)                                |
  |                                                      |
  |  5. 实际业务意义 > 统计显著性                            |
  |     (转化率提升0.01%即使显著也没业务价值)                 |
  |                                                      |
  +------------------------------------------------------+

常见 A/B 测试场景

场景总览

测试维度	具体案例	核心指标	预期效果
UI/视觉	按钮颜色：绿色 vs 橙色	点击率	颜色对比影响注意力
UI/视觉	首页 Banner 布局	点击率、停留时长	视觉层次影响浏览行为
文案	"立即购买" vs "马上抢购"	点击率、转化率	措辞影响用户心理
文案	注册页提示语	注册完成率	降低用户疑虑
定价	月付 vs 年付优先展示	ARPU、付费率	定价策略影响收入
定价	免费试用 7天 vs 14天	付费转化率	试用时长影响转化
流程	注册3步 vs 注册1步	注册完成率	流程简化影响转化
流程	结账需要登录 vs 游客结账	订单完成率	降低下单门槛
算法	推荐算法 V1 vs V2	点击率、停留时长	算法优化提升体验
算法	搜索排序调整	搜索结果点击率	排序优化提升效率
功能	有无实时聊天客服	转化率、客诉率	客服影响购买决策
功能	视频评价 vs 文字评价	转化率、退货率	评价形式影响信任度

详细案例：注册流程优化

  案例: 注册流程 A/B 测试
  =============================================

  背景: 当前注册完成率 40%，希望提升到 50%

  +------- A 组 (对照组) --------+
  |                              |
  |  Step 1: 输入手机号           |
  |  Step 2: 验证短信码           |
  |  Step 3: 设置密码            |
  |  Step 4: 填写昵称            |
  |  Step 5: 选择兴趣标签         |
  |                              |
  |  完成率: 40%                  |
  |  平均耗时: 3分15秒            |
  +------------------------------+

  +------- B 组 (实验组) --------+
  |                              |
  |  Step 1: 输入手机号           |
  |  Step 2: 验证短信码           |
  |  (密码改为首次登录时设置)       |
  |  (昵称和兴趣标签变为可选)       |
  |                              |
  |  完成率: 62%                  |
  |  平均耗时: 1分20秒            |
  +------------------------------+

  结果: 注册完成率提升 55%
  p值: 0.001 (非常显著)

  但同时发现:
  - B组 3日留存率下降 5%
  - B组用户资料完整度下降 40%

  决策: 综合评估后仍采用 B 方案
  原因: 注册转化的提升远大于留存的小幅下降
  后续: 在注册后24小时内引导用户补全资料

A/B 测试常见陷阱

陷阱 1: 样本量不足

  样本量不足的危害
  =============================================

  想象你在判断一枚硬币是否公平:

  只抛 10 次:
  正面 7 次 (70%) --> 觉得硬币不公平?
  但这完全可能是偶然!

  抛 10,000 次:
  正面 5,350 次 (53.5%) --> 更可靠的判断

  +----------------------------------------------+
  |  真实场景:                                     |
  |                                              |
  |  某功能测试只跑了 2 天                          |
  |  A组: 500 人, 转化率 4.2%                      |
  |  B组: 480 人, 转化率 5.1%                      |
  |                                              |
  |  PM: "B组高了 21%! 赶紧全量!"                   |
  |                                              |
  |  实际: 样本量太小, 这个差异可能只是随机波动       |
  |        p值 = 0.48 (远未达到显著性)              |
  |        需要至少 15,000 人/组 才能检测            |
  |        10% 的差异                               |
  +----------------------------------------------+

如何避免：实验开始前用样本量计算器确定最小样本量，不达标不下结论。

陷阱 2: 观察时间太短

  时间太短导致的偏差
  =============================================

  转化率
  |
  |        x
  |       x x          +-- 工作日高峰
  |      x   x        |
  | x   x     x   x   x
  |  x x       x x   x  x
  |   x         x       x
  +--+--+--+--+--+--+--+--+--
    Mon Tue Wed Thu Fri Sat Sun Mon

  如果只测 Mon-Wed，你看到的是上升趋势
  如果只测 Fri-Sun，你看到的是下降趋势
  只有测完至少一个完整周期(7天)才能得到可靠结论

  建议:
  - 最少运行 7 天 (覆盖工作日+周末)
  - 理想运行 14 天 (覆盖两个完整周期)
  - 避开节假日和大促

陷阱 3: 多变量混淆

  多变量混淆的问题
  =============================================

  错误做法: 同时改了多个变量

  +---- A 组 (对照) ----+    +---- B 组 (实验) ----+
  |                     |    |                     |
  |  蓝色按钮            |    |  绿色按钮            |
  |  "立即购买"          |    |  "马上抢购"          |
  |  按钮在页面底部       |    |  按钮在页面顶部       |
  |                     |    |                     |
  +---------------------+    +---------------------+

  结果: B组转化率高 20%

  问题: 到底是哪个改动带来的提升？
  - 是颜色? 文案? 还是位置?
  - 无法判断!
  - 如果绿色有帮助，但顶部位置有害呢？
  - 可能只优化了颜色就能提升 30%!

  正确做法: 每次只改一个变量
  或者使用多变量测试(MVT)来分析各因素影响

陷阱 4: 辛普森悖论

辛普森悖论是指：整体数据显示的趋势，与按子群体分析时显示的趋势完全相反。

  辛普森悖论示例
  =============================================

  整体数据:
  +----------+--------+--------+----------+
  |          | A组     | B组    | 谁更好？  |
  +----------+--------+--------+----------+
  | 总用户    | 10,000 | 10,000 |          |
  | 总转化    | 450    | 500    |          |
  | 转化率    | 4.5%   | 5.0%   | B组!     |
  +----------+--------+--------+----------+

  PM: "B组赢了! 全量上B!"

  等等...按用户类型拆分看看:

  新用户(占比):
  +----------+--------+--------+----------+
  |          | A组     | B组    | 谁更好？  |
  +----------+--------+--------+----------+
  | 新用户数  | 8,000  | 4,000  |          |
  | 新用户转化| 400    | 180    |          |
  | 转化率    | 5.0%   | 4.5%   | A组!     |
  +----------+--------+--------+----------+

  老用户(占比):
  +----------+--------+--------+----------+
  |          | A组     | B组    | 谁更好？  |
  +----------+--------+--------+----------+
  | 老用户数  | 2,000  | 6,000  |          |
  | 老用户转化| 50     | 320    |          |
  | 转化率    | 2.5%   | 5.3%   | 差距不大  |
  +----------+--------+--------+----------+

  真相: B组整体转化率高是因为分到了更多老用户
        (老用户天然转化率更高)
        分群看，A组对新用户更好!
        分流出了问题!

如何避免：

检查分流的随机性（AA 测试）。
按关键维度（新/老用户、渠道、设备等）分别查看结果。
使用分层分析或回归分析控制混淆变量。

陷阱 5: 偷看数据（Peeking Problem）

  偷看数据的问题
  =============================================

  实验计划运行 14 天
  但 PM 每天都去看数据...

  Day 1: A组 3.1%, B组 3.5% --> "B组好! 但再等等"
  Day 2: A组 3.2%, B组 3.0% --> "啊, A组追上了"
  Day 3: A组 3.0%, B组 3.8% --> "B组又好了! p=0.04!"
         PM: "p<0.05了! 显著了! 全量上B!"

  问题:
  +---------------------------------------------------+
  |  如果你每天都检查一次, 做14次检验:                    |
  |                                                   |
  |  每次检验的误报率(alpha) = 5%                       |
  |  14次检验中至少一次误报的概率:                        |
  |  1 - (1-0.05)^14 = 1 - 0.49 = 51% !!!            |
  |                                                   |
  |  你有 51% 的概率得到一个"假阳性"结果!                |
  +---------------------------------------------------+

  这就像买彩票:
  买一次中奖概率很低
  但买14次中奖的概率就大多了

  正确做法:
  1. 提前确定实验结束时间
  2. 只在预设时间点分析数据
  3. 或使用"序贯检验"方法(对多次查看做统计修正)

如何避免：

实验开始前设定结束日期，严格遵守。
如果必须提前查看，使用 Bonferroni 修正或序贯分析方法。
建立团队纪律：中途只检查护栏指标和数据质量，不看核心指标的 p 值。

多变量测试 MVT 简介

什么是多变量测试

多变量测试（Multivariate Testing，MVT）是 A/B 测试的扩展，允许同时测试多个变量的不同组合。

  A/B 测试 vs 多变量测试
  =============================================

  A/B 测试: 一次只测一个变量
  +------+   +------+
  | A组   |   | B组   |
  | 蓝按钮 |   | 绿按钮 |
  +------+   +------+
  2 个版本

  ---

  多变量测试: 同时测试多个变量的组合

  变量1: 按钮颜色 (蓝/绿)
  变量2: 按钮文案 ("购买"/"立即购买")
  变量3: 按钮大小 (小/大)

  组合数 = 2 x 2 x 2 = 8 个版本

  +--------+--------+--------+--------+
  | 组合1   | 组合2   | 组合3   | 组合4   |
  | 蓝+购买 | 蓝+立即 | 绿+购买 | 绿+立即 |
  | +小     | 购买+小 | +小     | 购买+小 |
  +--------+--------+--------+--------+
  | 组合5   | 组合6   | 组合7   | 组合8   |
  | 蓝+购买 | 蓝+立即 | 绿+购买 | 绿+立即 |
  | +大     | 购买+大 | +大     | 购买+大 |
  +--------+--------+--------+--------+

MVT 的优缺点

维度	A/B 测试	多变量测试 (MVT)
变量数	1 个	多个
版本数	2 个	指数级增长
所需样本量	较小	非常大
实验时间	较短	较长
分析复杂度	简单	复杂
结论	X 有效/无效	各因素的独立效果和交互效果
适用场景	功能/策略验证	页面元素组合优化
流量要求	中等	非常大

MVT 的适用场景

  什么时候用 MVT
  =============================================

  适合 MVT:
  +-------------------------------------------+
  | - 网站着陆页优化 (标题+图片+CTA按钮)        |
  | - 邮件营销优化 (主题行+正文+CTA)            |
  | - 高流量页面的精细化调优                     |
  | - 需要了解各因素间交互效应的场景              |
  +-------------------------------------------+

  不适合 MVT:
  +-------------------------------------------+
  | - 流量不够大 (< 10万/周)                   |
  | - 变量太多 (组合数爆炸)                     |
  | - 需要快速得出结论                          |
  | - 测试大的功能/策略变更                      |
  +-------------------------------------------+

  实践建议:
  +-------------------------------------------+
  | 1. 新手先掌握 A/B 测试                      |
  | 2. 有充足流量时再尝试 MVT                    |
  | 3. MVT 中变量不超过 3 个                    |
  | 4. 优先用 A/B 测试验证大方向                 |
  |    再用 MVT 优化细节                        |
  +-------------------------------------------+

本节总结

  A/B 测试知识总结
  =============================================

  +--------------------------------------------+
  |                                            |
  |  核心流程:                                   |
  |  假设 -> 设计 -> 样本量 -> 分流 ->           |
  |  收集数据 -> 统计分析 -> 结论                 |
  |                                            |
  |  统计基础:                                   |
  |  - p < 0.05 = 显著                          |
  |  - 置信区间不含 0 = 有效果                    |
  |  - Power >= 80% = 够灵敏                    |
  |                                            |
  |  五大陷阱:                                   |
  |  1. 样本量不足 --> 提前计算样本量              |
  |  2. 时间太短   --> 至少跑完一个业务周期         |
  |  3. 多变量混淆 --> 每次只改一个变量            |
  |  4. 辛普森悖论 --> 分群分析验证                |
  |  5. 偷看数据   --> 严格遵守实验结束时间         |
  |                                            |
  +--------------------------------------------+

关键要点回顾：

A/B 测试是产品优化最科学的方法，核心是控制变量和随机分组。
好的 A/B 测试从一个清晰的假设开始。
样本量和实验时间要提前计算，不能"差不多了就停"。
理解 p 值和置信区间的基本概念，能看懂实验报告。
牢记五大常见陷阱，避免得出错误结论。
掌握 A/B 测试后，再了解多变量测试作为进阶工具。

下一节：数据分析工具 -- 学习产品经理常用的数据分析工具和 SQL 基础。

02 - A/B 测试方法论 ​

目录 ​

什么是 A/B 测试 ​

定义 ​

A/B 测试的核心思想 ​

A/B 测试的完整流程 ​

Step 1: 提出假设 ​

Step 2: 设计实验 ​

Step 3: 确定样本量与实验时间 ​

Step 4: 上线分流 ​

Step 5: 收集数据 ​

Step 6: 统计分析 ​

Step 7: 得出结论 ​

统计显著性基础 ​

通俗理解 p 值 ​

置信区间 ​

两类错误 ​

PM 需要记住的统计要点 ​

常见 A/B 测试场景 ​

场景总览 ​

详细案例：注册流程优化 ​

A/B 测试常见陷阱 ​

陷阱 1: 样本量不足 ​

陷阱 2: 观察时间太短 ​

陷阱 3: 多变量混淆 ​

陷阱 4: 辛普森悖论 ​

陷阱 5: 偷看数据（Peeking Problem） ​

多变量测试 MVT 简介 ​

什么是多变量测试 ​

MVT 的优缺点 ​

MVT 的适用场景 ​

本节总结 ​