野球選手の年棒予測

今回は野球選手の年棒、打者データから野球で使用される指標の一つ「wraa」を軸に適正な年棒を予測できるか?という趣旨で分析を行いました。
※このブログの内容は個人の意見・見解となります。また、記事の内容の正確性については保証いたしません。本ブログの目的は分析結果をアウトプットしていくことによる自身のデータ分析力向上を主としています。誤りや違うアプローチの方が良いという事も多分にあると思います。後学のため、「もっとこうしたらいい」や誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。

今回分析を行うにあたり使用したデータは下記のURLからスクレイピングで取得したものになります。

プロ野球データFreak:https://baseball-data.com/

分析するにあたり設定した課題、目的、要因、は以下になります。

課題:年棒は選手の生活にも関わってくるため人が決める際には少なからず主観が入ってしまうため、実績にそぐわない年棒を貰っている選手がいるのではないか?
目的:機械に年棒の算出を任せることで成績を元に適正な年棒を設定し費用削減、客観性の確保を目指す
年棒に影響を与える要因仮説:wraa(安打、二塁打、3塁打、本塁打などの打席成績を元に打撃貢献度をはかる指標)が高い選手は年棒が高い
github:https://github.com/ryosuke-yakura/baseboll



では、早速データを見ていきます。

今回使用するデータは上記の内容になります。
打撃成績に守備、年齢、年数、年棒があります。
2022年の基本統計情報を確認します。
打率は平均20%、標準偏差9%とブレが大きいことがわかります。
打数を見ると平均が125に対して0回もあります。
年齢の平均は27歳、年数は6年。
また、年棒は標準偏差9020とブレが大きいことが窺えます。

wraaを指標として年棒を見ると、ソフトバンクは年棒がずば抜けて高いがwraaは12球団中5位とな李ます。
DeNAはwraaは高いが年棒は12球団中下位6位となっています。
中日はwraa、年棒ともに低いです。

横軸:wraa 縦軸:年棒(単位:万円)
wraaを見ると0から20は年棒が10,000万以下が多いです。
ごく稀にwraaが低い選手でも高い年棒をもらっている選手もいます。

どんな別れ方をするか興味があったため、クラスター分析も行ってみます。

クラスター分析を行ったところ選手は下記の4グループに分類できそうです。
クラスター1は打席成績、年齢・年数ともに最高級であり年棒も非常に高いTOPベテランタイプ
クラスター2は年齢・年数が結構入っているが打席数、打席成績が悪い控えベテランタイプ
クラスター3は打席成績が悪く、年齢・年数も若いプロ成り立て新人タイプ
クラスター4は打席成績はまずまずだが盗塁、犠牲フライが多く、年齢が高い3枚目ベテランタイプ

では、年棒の予測を行っていきたいと思います。

今回はridge回帰を使用しました。
trainに対してtestのscoreが低く、過学習が考えられます。
alphaを強くすることで抑えられる気がしますが、今回はとりあえずこのまま行きます。

横軸をwraa、右が予測結果、左が真値を縦軸にした散布図になります。

予測結果を見ると、wraaが低い選手でマイナス年棒が発生しています。
年棒が低い選手たちは予測値を算出する際の正規分布の取りうる値にマイナスが入ってしまうことが要因と考えられます。非負の値で算出できるよう調整を行うか、大胆にマイナスの選手は0とするか検討する必要がありそうです。
wraaが低いが年棒が高いといった選手の年棒は全体的に落ち着いている印象があるため精度を改善することで使用できるモデルになると考えます。

このような形で分析した結果を今後は週に1回(目標)ペースで掲載していきたいと考えている。データ分析のキャリアを歩み始めたのですが、データの解釈、分析力が低いと感じ今回、このような形でアウトプットをしていくことにしたため、ぜひ、アドバイスやご指摘をいただけると幸いです。