なぜこれが重要なのでしょうか？逐次検定では、いつ表示しても結果は有効です。つまり、その時点までの観測に基づいて、**実験を早期に終えることができることを意味し、**情報に基づいた決定を下す必要のある平均観測数は、t検定や類似の手法で必要とする数よりもはるかに少ないということです。新しく学んだことをプロダクトに組み込み、**実験プログラムのペースを速めることで、**より迅速に実験できます。

この記事では、逐次検定の基本とそれがAmplitude Experimentにどう適合するか、そしてどのように機能するかを説明します。

Amplitude Experimentにおける仮説検定

Experimentでは、A/Bテストを実行する場合、ユーザーが処置バリアントまたはコントロールにランダムに割り当てられるランダム化比較試験により、仮説検定を行います。コントロールは、現在のプロダクトを表しますが、各処置には現在のベースラインプロダクトに対する潜在的な変更が含まれます。Experimentでは、所定の指標で検定統計を使用し、これら2つの母集団のパフォーマンスを比較します。

仮説検定では、コントロールと処置バリアントのパフォーマンスの違いを探します。Amplitude Experimentは、処置の平均とコントロールの平均の間に差がないことを示す帰無仮説を検定します。

例えば、処置バリアントのコンバージョン率を測定する場合、帰無仮説は、処置バリアントとコントロールのコンバージョン率が同じであると仮定します。

対立仮説は、処置とコントロール間に違いがあることを示します。Experimentの統計モデルは、処置とコントロールの違いを探すために、逐次検定を使用します。

さまざまな逐次検定オプションがあります。Amplitude Experimentでは、混合逐次確率比検定（mSPRT）と呼ばれる一連の検定を使用します。重み関数Hは、混合分布です。そのため、帰無仮説に対する次の尤度比の混合を得ます：

現在、Amplitudeは、ユニーク、平均合計、プロパティ合計の処置と制御バリアントの算術手段の比較のみをサポートしています。

t検定と比較して逐次検定はどのよなものでしょう。

前述のように、逐次検定を使用すると、いつでも結果を見ることができます。しかし、t検定などのフィックスト・ホライズン検定は、実験中に見ると、偽陽性が増える可能性があります。

以下は、特定の構成（アルファ=0.05、ベータ=0.2）の100のA/Aテストを実行したシミュレーションにおける、経時的なp値を視覚化したものです。データ流入でt検定を実行したとき、定期的に途中結果を見ました。p値がアルファを下回るたびに、検定を停止し、統計的有意性に達したと結論します。

10,000人の訪問者に達し、検定が終了する前であっても、p値がかなり変動することがわかります。途中で見ることで、偽陽性の数を増やしています。下の表は、t検定を実行したときのさまざまな実験設定で発生する拒否数をまとめたものです。

ここでは、「ベースライン」はコントロールバリアントのコンバージョン率であり、「delta_true」は処置とコントロールの絶対的な違いです。これはA/Aテストであるため、違いはありません。アルファを0.05に設定すると、途中で見る場合は拒否数がタイプ1エラーに設定したしきい値をはるかに上回ることが分かります。num_rejectは5よりも大きくなってはいけません。

これを逐次検定アプローチと比較します。同様に、100のA/Aテストで、アルファを0.05に設定します。定期的に途中結果を見て、p値がアルファを下回ると、検定が統計的有意性に達したと結論します。この統計的手法を使用した結果として、偽陽性の数は、しきい値未満になります：

常に有効な結果では、p値がしきい値を下回ると、いつでも検定を終了できます。アルファ=0.05の100回の試行で、しきい値を下回る数は4であるため、タイプ1のエラーは制御されています。

下の表は、t検定を実行したときのさまざまな実験設定で発生する拒否数をまとめたものです。

これまでと同じ基本的な設定を使用して、100回の試行のうち、拒否数は、所定のしきい値であるアルファ=0.05以内であることがわかります。アルファを0.05に設定すると、偽陽性はt検定の場合の30〜50％に対し、5％のみであることがわかります。逐次検定では、偽陽性を増やす心配がなく、いつでも結果を見て、実験を完了できます。

よくある質問と回答

このアプローチの統計的検出力は何ですか？

十分な時間があれば、逐次検定方法の統計的検出力は1です。検出する効果量がある場合、このアプローチで検出します。

露出数が0より多いにもかかわらず、p値または信頼区間が変化しないのはなぜですか？

ユニークでは、Amplitude Experimentは、処置とコントロールの両方で少なくとも25のコンバージョンと100の露出があるまで、p値と信頼区間を計算しません。

平均合計とプロパティの合計では、処置とコントロールそれぞれで少なくとも100回の露出になるまで、Experimentは待機します。

経時信頼区間チャートに信頼区間が表示されないのはなぜですか？

これは、しきい値がまだ満たされていないためです。

ユニークでは、処置とコントロールのそれぞれが少なくとも25のコンバージョンと100の露出になるまで、Experimentは待機します。次に、p値と信頼区間の計算を開始します。

平均合計とプロパティの合計では、処置とコントロールそれぞれで少なくとも100回の露出になるまで、Experimentは待機します。

ユニークを選択すると、何を推定していますか？

これは、訪問者が特定のイベントを発生させたかどうかを測定します。結果は、このアクションを実行した母集団の割合です。これは、割合、または処置とコントロールのコンバージョン率の割合を比較します。

平均合計を選択すると、何を推定していますか？

これは、訪問者がイベントを発生させた平均回数をカウントします。各訪問者の場合、Experimentは、対象のアクションを実行した回数をカウントし、コントロールと処置の両方のサンプル全体を平均します。結果は、処置とコントロールの平均合計の比較です。

プロパティの平均合計を選択すると、何を推定していますか？

これは、特定のプロパティのユーザーあたりのイベント値を合計します。例えば、すべての回でユーザーの合計カート値を取得する場合、「カート値」プロパティで「カートに追加」イベントを選択します。この例に限った結果は、処置とコントロールの平均カート値の比較です。

絶対的リフトとは何ですか？

これは、処置とコントロールの絶対的な違いです。

相対的リフトとは何ですか？

これは、コントロールの平均でスケーリングされた絶対的リフトです。この値は、ベースラインに対する処置の相対的な変化を見極めるのに有用と考える人もいます。

絶対的リフトが信頼区間から外れるのはなぜですか？

場合によっては、絶対的リフトが信頼区間を外れる可能性があります。これにより、信頼区間が反転することがあります。これは、推定しているパラメータ（絶対的リフト）が時間とともに変化し、処置とコントロールの割り当てが変化したときに発生します。Experimentが使用する統計モデルの基礎となる推定では、絶対的リフトとバリアント割り当てが時間とともに変化しません。

Experimentのアプローチの優れた点は、処置とコントロールの両方が時間とともに絶対的な差を維持し、手段が同期して変化するときに発生する対称的な時間変化の処理に堅牢であることです。

オプションの1つは、絶対的リフトがより安定し、割り当てが静的である違う開始日（または日付範囲）を選択することです。

これは、時間とともにノベルティ効果やリフトにドリフトがある場合にも起こる可能性があります。逐次検定では、柔軟なサンプル量が可能になります。このため、検定指標の露出とコンバージョン間に大幅な遅れがある場合は、コンバージョンする時間のない、露出したユーザーの影響を考慮せずにテストを停止してはいけません。これを行うには、次のことができます：

ファネルチャートを使用して、各バリアントのコンバージョンまでの平均時間を比較する
実験結果を分析する日付範囲を調整し、露出したもののテストの停止後にコンバージョンしたユーザーを含める

Need help? Contact Support

Visit Amplitude.com

Have a look at the Amplitude Blog

Learn more at Amplitude Academy