Kaggle BIG-DATA-DERBY参加した際の事前準備

今回はkaggleげ開催されているBIG-DATA-DERBYに参加するにあたり準備したことを記載させていただきます。本当はEDAを行ったコード、結果とともに共有できればと思っていたのですが利用規約にコンペ参加者以外の共有はダメと記載があったため断念しました。大変申し訳ないのですがコード及び分析結果はkaggle[BOG-DATA-DERBY]のCodeで公開しているため下記URLでSerch Notebookに「日本語」と記載して検索していただき「日本語 big-data-derby-EDA」をご覧いただければと思います。

kaggle_notebook:https://www.kaggle.com/competitions/big-data-derby-2022/code

※このブログの内容は個人の意見・見解となります。また、記事の内容の正確性については保証いたしません。本ブログの目的は分析結果をアウトプットしていくことによる自身のデータ分析力向上を主としています。誤りや違うアプローチの方が良いという事も多分にあると思います。後学のため、「もっとこうしたらいい」や誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。

kaggle[BOG-DATA-DERBY]の概要は下記になります。
この大会の目的は、競馬の戦術、起草戦略、および経路効率を分析することです。これまでに公開されたことのない座標データと基本的なレース情報を使用してモデルを開発します。 あなたの仕事は、競走馬の所有者、トレーナー、獣医師が、馬のパフォーマンスと福祉がどのように結びついているかをよりよく理解するのに役立ちます.データ分析が改善されれば、馬の福祉は大幅に改善される可能性があります。


今回は予測対象があるコンペではなく、新たな戦術や経路効率の改善などを行うことが目的となる今までにないコンペになります。
先週、こちらのブログで取り組みます!と宣言した際には気づいていませんでした。笑

では、分析する前に準備したことを共有させていただきます。


今回のコンペは予測精度を競うものではないということを前提にまずは下記の3点を定めました。

  • 目的
  • 目的達成に寄与するであろう要因
  • 要因をどのように調べるか

目的
1位を取れる確率の上がる戦術の提案

目的達成に寄与するであろう要因
・レースで使用された戦術
・騎手
・コース×コースのコンディションとの相性
・odds
・馬のコンディションや種類(データがないため確認不可)

要因をどのように調べるか
・レースで使用された戦術
→レース中の馬の緯度経度情報を元に走り方を確認
・騎手、odds
→平均oddsを用いて騎手の実力を測定
出場回数、平均oddsを元にどの騎手を選択すると良いか散布図で確認
・コース×コンディション
→コース×コンディション×騎手で平均oddsを比較することでコース、コンディションに強い騎手を確認

また、競馬については見たこともない状態だったため、競馬のサイトなどを見て基本的な戦術を勉強しました。

本来であれば来週はモデル作成の予定でしたがデータを公開できないため別の取り組みをここでは記載させていただこうと思っています。

現在、分析した結果を週に1回ペースで掲載しています。データ分析のキャリアを歩み始めたのですが、データの解釈、分析力が低いと感じ今回、このような形でアウトプットをしていくことにしたため、ぜひ、アドバイスやご指摘をいただけると幸いです。