kaggle_datasets_A/Btest
今回はkaggleに掲載されていたA/Btestデータセットを用いて、A/Btestの結果の解釈を行いたいと思います。
※このブログの内容は個人の意見・見解となります。また、記事の内容の正確性については保証いたしません。本ブログの目的は分析結果をアウトプットしていくことによる自身のデータ分析力向上を主としています。誤りや違うアプローチの方が良いという事も多分にあると思います。後学のため、「もっとこうしたらいい」や誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。
今回、分析を行うにあたり使用したデータは下記のURLからダウンロードした情報になります。
kaggle datasets A/Btest https://www.kaggle.com/datasets/sergylog/ab-test-data
今回の目的と分析方法は下記になります。
・目的:A/Btestの結果から収益向上に繋がる行動を選択する(webサイト)
・分析方法
結果の可視化、基本統計的数値の把握(平均、分散、標準偏差)、統計的仮説検定(カイ二乗検定、順位和検定)
・github https://github.com/ryosuke-yakura/ABtest
そもそもA/Btestとはどんなものか少し調べてみました。
A/Btestはaパターンとbパターンどちらがいいかテストすることを指します。
因果関係を考える際にネックとなる部分が「もしも」のデータが存在しないことです。
例えば、Aさんが「介入を受けた結果」と「介入を受けなかった結果」を元に差を比較することで因果関係の有無を検証できますが、介入を受けてしまった場合は介入を受けなかった結果は存在しなくなります。
そこで、webサイトのデザインやメールの配信内容などの変更点において、異なる内容を用意し対照者を分けることで擬似的に「もしも」のデータを作り比較します。
この際に重要なことは対照者、介入者で同じ構造となるように設計することです。
極端な例ですが対象者には女性のみ、介入者には男性のみなど偏りのある設計は性別によるバイアスなど本当に検証したい変更点の検証が行えなくなります。
では、早速データを見ていきます。
まずはデータセットの中身を確認していきます。
次は可視化を行います。
次は仮説検定を行なっていきます。
まずはREVENUE数に対して差があるかカイ二乗検定を行います。
今回のABテストではREVENUE数、REVENUE共に統計的に有意な差は見られなかった。 そのため、今回の変更は収益に影響を及ぼさないため別の変更を検討する必要があると考えられる。
・最後に
このような形で分析した結果を週に1回(目標)ペースで掲載しています。データ分析のキャリアを歩み始めたのですが、データの解釈、分析力が低いと感じ今回、このような形でアウトプットをしていくことにしたため、ぜひ、アドバイスやご指摘をいただけると幸いです。
コメントを残す