kaggle_datasets_A/Btest

今回はkaggleに掲載されていたA/Btestデータセットを用いて、A/Btestの結果の解釈を行いたいと思います。

※このブログの内容は個人の意見・見解となります。また、記事の内容の正確性については保証いたしません。本ブログの目的は分析結果をアウトプットしていくことによる自身のデータ分析力向上を主としています。誤りや違うアプローチの方が良いという事も多分にあると思います。後学のため、「もっとこうしたらいい」や誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。

今回、分析を行うにあたり使用したデータは下記のURLからダウンロードした情報になります。
kaggle datasets A/Btest https://www.kaggle.com/datasets/sergylog/ab-test-data

今回の目的と分析方法は下記になります。
・目的:A/Btestの結果から収益向上に繋がる行動を選択する(webサイト)
・分析方法
結果の可視化、基本統計的数値の把握(平均、分散、標準偏差)、統計的仮説検定(カイ二乗検定、順位和検定)
・github https://github.com/ryosuke-yakura/ABtest

そもそもA/Btestとはどんなものか少し調べてみました。
A/Btestはaパターンとbパターンどちらがいいかテストすることを指します。
因果関係を考える際にネックとなる部分が「もしも」のデータが存在しないことです。
例えば、Aさんが「介入を受けた結果」と「介入を受けなかった結果」を元に差を比較することで因果関係の有無を検証できますが、介入を受けてしまった場合は介入を受けなかった結果は存在しなくなります。
そこで、webサイトのデザインやメールの配信内容などの変更点において、異なる内容を用意し対照者を分けることで擬似的に「もしも」のデータを作り比較します。
この際に重要なことは対照者、介入者で同じ構造となるように設計することです。
極端な例ですが対象者には女性のみ、介入者には男性のみなど偏りのある設計は性別によるバイアスなど本当に検証したい変更点の検証が行えなくなります。

では、早速データを見ていきます。

まずはデータセットの中身を確認していきます。

データが10,000件あり、variantとcontrolに約50%づつ分かれています。

今回、データ数が10,000件に対してユニークユーザーが6,300件と3700件は同一ユーザーが何回かサイトに訪問していることがわかります。
controlとvariant双方に訪問しているユーザーがいないか確認したところ1,541件あることがわかりました。
今回、上記の1,541件は抜いて検定を行なっていきます。

次は可視化を行います。

2群のREVENEUを確認しました。control群にずば抜けて高いユーザーがいることがわかります。
先ほどの高いユーザーを除いたところ大分見やすくなりました。
REVENUEは0がほとんどであり、0の次に0~5に密集しています。
基本情報を確認している時に、同一ユーザーが数回訪問しているケースを発見したためユーザー毎に1行になるように集計し直した結果が上記となります。少し0が減るかと思いましたが目視では変化はありませんでした。
0を抜くと0<x<=5の間にほとんどのデータが存在することがわかります。

次は仮説検定を行なっていきます。

まずはREVENUE数に対して差があるかカイ二乗検定を行います。

カイ二乗値が1.32と自由度1のカイ二乗分布(0.05)は3.84と5%検定で帰無仮説を棄却できない。
そのため100回中95回以内に同様の事象は起こり得ると判断できる。
今回の検定結果からcontrolとvariantにおけるrevenur数において有意な差は見られなかった。
REVENEUの平均、標準偏差を確認するとcontrol群の方が若干数値が高い。
0の件数が多すぎたため0以外でも確認してみたが正規分布とは言い難い。そのためt検定ではなく順位和検定を行う。
ちなみに、F値も計算してみたが2群はp < 0.05であり、帰無仮説は棄却された。
p値は0.27と0.05より大きいため有意水準0.05%で帰無仮説を棄却できない。
有意な差は見当たらなかった。

今回のABテストではREVENUE数、REVENUE共に統計的に有意な差は見られなかった。 そのため、今回の変更は収益に影響を及ぼさないため別の変更を検討する必要があると考えられる。

・最後に

このような形で分析した結果を週に1回(目標)ペースで掲載しています。データ分析のキャリアを歩み始めたのですが、データの解釈、分析力が低いと感じ今回、このような形でアウトプットをしていくことにしたため、ぜひ、アドバイスやご指摘をいただけると幸いです。