データサイエンス職の給料事情分析

今回はkaggleに掲載されていたデータセットにデータサイエンス職の給料情報という興味深いデータセットがあったため、データサイエンス職の給料に影響を与える要因を発見することを目的に分析を行いました。

※このブログの内容は個人の意見・見解となります。また、記事の内容の正確性については保証いたしません。本ブログの目的は分析結果をアウトプットしていくことによる自身のデータ分析力向上を主としています。誤りや違うアプローチの方が良いという事も多分にあると思います。後学のため、「もっとこうしたらいい」や誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。

今回、分析を行うにあたり使用したデータは下記のURLからダウンロードした情報になります。

kaggle Data Science job Salaries:https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries

分析するにあたり設定した課題、目的、要因は以下になります。
課題:データサイエンス職で給料を上げるにはどうすれば良いか?
目的:データサイエンス職の給料に影響を与える要因を見つける
要因仮説:国、会社規模、スキル、働いている年数、学歴、働いている年数、雇用形態
github:https://github.com/ryosuke-yakura/DataScienceSalaries

データのカラムは下記になります。
・work_year 給料が支払われた年

・experience_level その年の職務における経験レベル(エントリーレベル/ジュニアレベル等)

・emplyment_type 雇用形態

・job_title 職種

・salary 給与総額

・salary_currency 給与_通貨

・salary_in_usd 給与をドルで換算したもの

・employee_residence 従業員の居住国

・remote_ratio リモートで行われた作業の割合

・company_location 本店または契約支社

・compant_size その年に会社で働いていた平均人数

では、早速データを見ていきます。

2020年から2022年の3年間のデータセットで607件ということは分析するにあたり十分なデータが揃っていないことが考えられる。今回はあくまで参考の範疇で結果に対して読み解いていくことにする。

・年ごとに給料をヒストグラムで表示

2020年から2022年まで山が右側に徐々に移動していることが伺える。
山の頂上が2020年は50,000付近に対して2022年は150,000付近となっている。
2021年と比較しても大きく右にずれていることからここ1年で急速に給料が上がっていることが伺える。
反対に2020年、2021年に見られていた400,000越えの社員は減っている。
ちなみに、150,000ドルは日本円換算(2022/9/10レート)で2,000万超え…

・国によって平均給料に差があるか確認

アメリカが平均給与が高く、一番低い国はルクセンブルク大公国となっており、差は130,000以上となる。
2番目に高い国はスイス、ついでオーストラリアとなっている。
ちなみに日本のデータサイエンス職を見てみる。
2020年と2021年で6件しかデータがなく、2022年は1件もなかったため判断はできないが多い人は200,000以上もらっているため上下の幅が大きくみえる。

・2021年→2022年職種別給料増減率

AIサイエンティストの給料が2021年と比較して5.5%増加している。

・国ごとに給料のレンジを確認

・各国のデータサイエンティスト給料を比較

データサイエンティストに絞ってみてもレンジの幅は大きくなっている。
件数の多いアメリカに絞って給料を大きく分けるポイントについて調べる。

・会社規模による差の比較

S:従業員50名未満 M:50~250名未満 L:250名以上
結構特徴的で、Sが極端に少な区なっている。Sサイズの企業はベンチャー、スタートアップと考えられるため、データサイエンティストといった職種が集めにくい可能性も考えられる。
Mでは給料の最大値と最小値の差が大きくなっている。個人のスキルによって差が出てくると考えられる。
Lでは給料の四部位範囲はMより若干高い水準となっているが飛び抜けて高い給料を支払っている会社はない。

・職務レベルで比較

MI(マテリアルズ・インフォマティクス)よりSEの方が約50,000ほど高くなっている。

・雇用形態で比較

FL:フリーランス FT:フルタイム
雇用形態にはパートなどもあるがアメリカではフルタイムかフリーランスしかいないため正確な比較ができていない可能性がある。(フリーランスも件数が少ない)
フリーランスは100,000とフルタイムの中央値より低い値となっている

・まとめ

今回はデータサイエンスの給料データを可視化しながら眺めてみた感想を記載する。
データサイエンスが高い給料をもらうための要因としては下記の3点が重要と考える。
・目指すキャリア(プレイヤーではなくマネジメント方向へのキャリア設計)
・企業の大きさ(安定を求めるなら従業員の多い大企業へ、一発逆転を狙うなら従業員が50~250人未満の企業へ)
・どこの国で働くか(アメリカ)

アメリカの給料を見ると数千万円レベルの給料が支払われており、アメリカの方が給料高い説は本当なんだなと感じた。一方で日本でも高い給料をもらっている事例も見受けられたため、自身のスキルによっては十分アメリカに匹敵する給料をもらうことも不可能ではないと感じた。 また、マネジメント方向ではなくプレイヤーとして活躍し高い給料を目指すのであればデータアーキテクトが良いと感じた。個人的にはデータサイエンティストとしてキャリアを形成していきたいため、マネジメント経験も積んでいく必要があると感じた。(技術面が追いつき次第ですが・・・)

・最後に

このような形で分析した結果を今後は週に1回(目標)ペースで掲載していきたいと考えている。データ分析のキャリアを歩み始めたのですが、データの解釈、分析力が低いと感じ今回、このような形でアウトプットをしていくことにしたため、ぜひ、アドバイスやご指摘をいただけると幸いです。
来週からはkaggleのBIG DATA Derbyに参加しようと思っています。
予定では1週目:EDA、2週目:ベースモデル、3週目〜4週目:試行錯誤を掲載していくつもりのため是非拝見していただければと思います。