📊 A/Bテスト計算機

A/Bテストの統計的有意差判定・必要サンプルサイズ計算・CVR改善率をかんたんに算出できます。

パターンA(コントロール)

パターンB(バリアント)

計算式の解説

Z検定(正規近似)による有意差判定

プールされた推定値: p̂ = (xA + xB) / (nA + nB)

標準誤差: SE = √( p̂(1 - p̂)(1/nA + 1/nB) )

Z統計量: Z = (pB - pA) / SE

p値: p = 2 × (1 - Φ(|Z|)) (両側検定)

必要サンプルサイズの計算

n = (Zα/2 + Zβ)2 × (p1(1 - p1) + p2(1 - p2)) / (p2 - p1)2

p1 = ベースラインCVR、p2 = p1 × (1 + MDE/100)、Zα/2 = 有意水準の臨界値、Zβ = 検出力の臨界値

結果の読み方

指標 意味 目安
p値 差が偶然で生じる確率 0.05未満で有意
Z値 標準偏差何個分の差か |Z| > 1.96 で95%有意
改善率 AからBへのCVR変化率 (CVR_B - CVR_A) / CVR_A
信頼区間 差の推定範囲 0を含まなければ有意

使い方・活用例

  • 「結果判定モード」ではAとBの訪問者数・CV数を入力して統計的有意差を判定できます
  • 「サンプルサイズ計算モード」で事前に必要なサンプル数を見積もれます
  • 有意水準は90%/95%/99%から選択可能。通常は95%を推奨します
  • CVR比較チャートで視覚的にAとBの差を確認できます
  • 結果はクリップボードにコピーしてレポートに貼り付けられます

A/Bテスト計算機とは

A/Bテスト計算機は、WEBマーケティングで必須のA/Bテスト分析を自動化するツールです。異なるバージョンの施策間で統計的に有意な差があるかを判定し、サンプルサイズや改善率を瞬時に計算します。マーケター・データアナリスト・プロダクトマネージャーが意思決定を数字で支える強い味方です。

使い方ガイド

計算機の操作フローは以下の通りです。
・パターンA(コントロール)のサンプル数とコンバージョン数を入力
・パターンB(テスト)のサンプル数とコンバージョン数を入力
・自動的に各パターンのCVR(コンバージョンレート)が計算される
・有意水準・検定方式を選択(デフォルトは両側検定、有意水準5%)
・「計算」ボタンをクリックすると、統計的有意差判定と改善率が表示される

活用シーン

ECサイトのボタン色変更テストに活用できます。赤と青のボタンどちらがより高いコンバージョンを生むか、統計的に正しく比較できます。WEBサイトのキャッチコピー改善でも効果的で、複数のコピー案を同時テストし、実際に効果があるか数字で判定します。アプリのUI改善検証にも使え、新しいUIが旧UIより本当に使いやすいか、ユーザー数データで立証することが可能です。さらに広告クリエイティブ最適化にも活用でき、異なる広告文やビジュアルのクリック率を科学的に比較して、予算効率を高めます。

知っておきたいポイント

A/Bテストの有意性判定は、統計学の「仮説検定」に基づいています。有意水準5%(p値<0.05)が業界標準ですが、決定の重要度により1%や10%と変更可能です。サンプルサイズは「統計的検定力」に影響し、小さすぎるとテスト結果の信頼性が低下します。本計算機は必要なサンプルサイズの目安も提示するため、テスト期間の計画に役立ちます。

よくある質問

A/Bテストの統計的有意差とは何ですか?

統計的有意差とは、AパターンとBパターンの結果の差が偶然ではなく実際の違いであると統計的に判断できる状態です。一般的にp値が0.05未満(95%信頼度)であれば有意差ありと判断します。

必要なサンプルサイズはどう計算しますか?

ベースラインCVR、最小検出可能効果(MDE)、有意水準、検出力の4つのパラメータから統計的に算出します。一般的に有意水準5%・検出力80%が使われます。

p値とは何ですか?

p値は帰無仮説(AとBに差がない)が正しいと仮定した場合に、観測されたデータ以上に極端な結果が得られる確率です。p値が小さいほど有意差がある可能性が高くなります。

CVR(コンバージョン率)の計算方法は?

CVR = コンバージョン数 / 訪問者数 × 100(%)で計算します。例えば1000人の訪問者のうち50人がコンバージョンした場合、CVRは5.0%です。

テスト期間はどのくらい必要ですか?

最低1〜2週間の完全なビジネスサイクルを推奨します。十分なサンプルサイズを集めるまでテストを継続し、途中で結果を見て早期終了しないことが統計的に正確な結果を得るコツです。

統計的パワー(検出力)って何ですか?

実際に効果がある場合に、それを統計的に検出できる確率です。一般的には80%が目安とされています。検出力が高いほど必要なサンプルサイズは大きくなりますが、より確実な結果が得られます。

信頼度95%と99%で必要なサンプルサイズはどう変わりますか?

信頼度を上げると必要なサンプルサイズが増えます。一般的に95%から99%に上げると、必要なサンプルサイズは約50%増加します。より確実な結果を求める場合はサンプルサイズを大幅に増やす必要があります。

最小検出効果量(MDE)をどう設定すべきですか?

MDEはビジネス上で「意味のある改善」と判断する最小値です。例えばCVRが2%から2.5%への改善が目標なら、相対改善率25%をMDEに設定します。実務では過去の改善実績を参考に決めることが一般的です。

テスト期間中に結果を途中で確認しても大丈夫ですか?

統計的には「ピークイング問題」が発生し、有意差判定の信頼性が落ちます。事前に必要なサンプルサイズを計算し、その数に達してから有意差を判定することが重要です。途中確認は誤った判定を招きやすいです。

複数のA/Bテストを同時に実施する際の注意点は?

複数のテストを同時実施すると「多重比較問題」が生じ、見かけの有意差が増加します。テスト数が多い場合はボンフェローニ補正などで有意水準を調整する、または各テストの有意水準を厳しくする必要があります。

外部要因(季節変動・キャンペーン等)の影響を考慮すべきですか?

はい、非常に重要です。テスト期間中のセールイベントや広告キャンペーンは結果を大きく歪めます。できるだけ外部要因が安定した期間を選び、複数の週にまたがるテストを実施することが推奨されます。