FAQ：AmplitudeはA/Bテストにおいて、ベースラインを上回る可能性と統計的有意性をどのように計算するのか？

AmplitudeのA/Bテスト機能は、標準的な統計的手法を利用して、ベースラインを上回る可能性と統計的有意性を判断します。この記事では、これらの計算について説明します。

ベースラインを上回る可能性

ベースラインを上回る可能性は、平均ベースライン（B）に対する平均バリアント（A）の割合です。

Amplitudeはベイズ法を使用して、バリアント（A）がベースライン（B）を上回る可能性を計算します。この確率は、差B - Aの分布に基づいています。BとAの個々の分布が正規分布であると仮定すると、差B - Aも平均が、分散がの正規分布（ガウス分布）になります。

AがBを上回る可能性を見つけるために、Amplitudeはゼロより右にくる曲線の下の面積を判定します。

曲線より下の面積または累積分布は、平均がμ、分散がσの誤差関数erfで表現できます。

Erfは数値近似で計算でき、Amplitudeも同じアプローチで上回る可能性を計算します：

erfが決定したら、BがAを上回っている可能性を計算する最後の数式は、次のようになります：

（出典：O'Connell, Aaron. “The Math of Split Testing Part 2: Chance of Being Better”（「分割テストの数学パート2：上回る可能性」））

A/Bテストビューは、チャートの左上隅で統計的意義が達成されたかどうかを示します。Amplitudeは、両側t検定を使用し、判定結果に対する偽陽性率5%で、最もパフォーマンスの良いバリアントのみを調べます。

Amplitudeは5％の偽陽性率を使用しているため、有意性のしきい値は（1-p値）>95％です。Amplitude Experiment（実験結果）で異なる偽陽性率を設定できます。

Amplitudeでは誤検出を減らすために、重要性を宣言する前に最小サンプルサイズを設定します。現在、この最小値は各バリアントについて、サンプル数30、コンバージョン5、コンバージョンなし5に設定されています。これらの最小値を満たさないテストは、自動的に統計的有意性がないとみなされます。

テストが統計的有意性を有している場合、この緑色のテキストが表示されます：

そうでない場合、次の赤色のテキストが表示されます：