最近は人事データの活用やピープルアナリティクスが注目を集めていますが、人事の方にとってはデータ分析の手法や用語に馴染みが薄いかと思います。本記事では人事データ分析でよく使われる基本的な手法について解説します。※人事データ活用の基本を知りたい方は人事データ活用にありがちな悩みを解決! 人事データの種類や分析のポイントも合わせてご覧ください。人事データ分析でよく使う手法時系列分析ある指標が時間の経過に応じてどのように変化したかを把握する手法です。1つの人事データの変化を追うのに有効です。グラフとしては折れ線グラフがよく使われます。(例)2024年の離職率の変化離職率が2024年1月から減少傾向にあることが分かります。(例)2024年の残業時間の変化残業時間が毎月25時間前後で推移していることが分かります。度数分布分析データの散らばりや分布を把握する手法です。1つの人事データにおいてどこがボリュームゾーンか、社員ごとにどれぐらいの偏りがあるかを把握するのに有効です。グラフとしては柱状図(ヒストグラム)がよく使われます。(例)社員の残業時間残業時間10-20時間がボリュームゾーンであり、次に20-30時間が多いことが分かります。(例)社員のエンゲージメントスコアエンゲージメントスコア100〜101点がボリュームゾーンであることが分かります。また、「データの最大値と最小値」「異常値」などのデータの散らばりを細かく見たい場合、箱ひげ図やバイオリン図を使うこともあります。(例)社員の残業時間を表した箱ひげ図残業時間が最も多い社員が52.67時間、最も少ない社員が24.96時間、中央値が30.11時間であり、残業が多い社員と少ない社員でバラつきがあることが分かります。出典:【人事×Tableau】残業時間を箱ひげグラフで表現する相関分析複数のデータの関わり合いを分析する手法です。複数の人事データのどれが影響し合うかなどを調べるのに有効です。グラフとしては散布図やヒートマップがよく使われます。データに相関があるかどうかを意味するのが相関係数であり、1に近づくほど正の相関、-1に近づくほど負の相関が強くなります(0に近い場合は相関無し)。データAが上がったときにデータBも上がるのが「正の相関」、逆にAが上がったときにBが下がるのが「負の相関」です。(例)エンゲージメントスコアと離職率の相関↑エンゲージメントスコアと離職率の相関係数が-0.01であり、ほとんど相関が無いことが分かります。エンゲージメントが向上しても離職率の低下には繋がらないため、離職率と相関の強いデータは何か、追加で調べる必要があります。(例)勤続年数と離職率の相関↑勤続年数と離職率の相関係数が-0.47であり、やや強い負の相関があります。勤続1年前後での離職が多いため、離職防止のためには入社1年以内のフォローが重要であると分かります。クラスター分析(クラスタリング)データを何らかの軸でグループ分けする手法です。(例)残業時間と年休消化率の散布図で、社員を部署ごとにクラスター分け↑以下のようなことが分かります。研究部は残業時間が多く年休消化率が低いため、残業過多が常態化している。総務部は残業時間が少なく年休消化率が高いため、適度な働き方ができている。営業部と開発部は残業時間を抑えて年休消化もしている社員、残業が多く年休消化率も低い社員に二極化している。出典:考えるためのデータ可視化:散布図(後編)回帰分析相関分析の派生であり、あるデータが変化すると別のデータがどれだけ変化するのかを数式で表したものです。グラフとしては散布図がよく使われます。相関分析では2つのデータの相関の有無までしか把握できませんが、回帰分析を行うと、「労働生産性が100万円/月上がると離職率が3%下がる」といった定量的な関係まで把握できます。(例)上司支援とエンゲージメントの回帰分析を行った散布図グラフには目盛が記載されていませんが、実際には上司から部下への支援がどれだけ上がると、部下のエンゲージメントがどれだけ上がるかが分かります。出典:人事のためのデータ分析入門:「回帰分析~要因を見出すための分析~」(セミナーレポート)変化の要因となるデータを「説明変数」、説明変数に連動して変化するデータを「目的変数」と呼びます。上の例で言えば、労働生産性が説明変数、離職率が目的変数となります。最もシンプルな回帰分析は説明変数が1つのものであり、これを単回帰分析と呼びます。複雑なデータになると説明変数が2つ以上存在することもあり、これを重回帰分析と呼びます。(例)・単回帰分析: 労働生産性が上がると離職率が下がる・重回帰分析: 労働生産性が上がり、かつ残業時間が減ると離職率が下がるロジスティック回帰分析回帰分析の派生であり、ある事象が起きる確率を複数のデータから予測する手法です。「社員が離職する/しない」「候補者が内定承諾する/しない」などの二値で表せる結果を予測するのに有効です。(例)勤続年数を元に、ある社員が離職する確率を予測するロジスティック回帰分析(グラフの青の曲線)↑実測値(灰色の曲線)では入社1年目の離職率が高く、勤続年数が長くなるほど離職率が下がるので、予測値の傾向に近しいと考えられます(40年目で離職率の実測値が急増するのは定年退職のため)。ここから、離職率を下げるためには入社直後のフォローが重要であることが分かります。出典:ロジスティック回帰か?ランダムフォレストか?決定木分析ある事象を起こす原因が複数存在する場合に、それぞれの影響度を分析する手法です。例えば「離職率が高い」という事象は複数の原因から起こされることが多いですが、決定木分析はどの原因がどれだけ離職率に影響ししているかを調べるのに有効です。グラフとしては樹形図がよく使われます。(例)離職原因の決定木分析「残業時間が多い」「エンゲージメントスコアが高い」「コミュニケーションスコアが高い」ことが離職原因に大きな影響を与えていることが分かります。(出典)人事分析の新時代を拓くHEARTCOUNT Analytics(ピープルアナリティクス)人事データ分析の課題以上のように人事データ分析には色々な手法がありますが、課題もあります。データの前処理が大変人事データを分析するためには様々なデータが必要ですが、これらは複数のシステムに分散していることがほとんどです(社員情報はタレントマネジメントシステム、残業時間は勤怠管理システム、エンゲージメントはサーベイツールなど)。そのため、各人事システムからデータをダウンロードするExcelで各データを突合するExcel上で集計やグラフ化を行うという工程を踏むことが多くなります。この1・2の作業を「前処理」などと呼びますが、データの種類や件数が増えるほど前処理の手間も大きくなります(一般的に、データ分析では8割の時間が前処理に費やされるとも言われています)。Excelでの集計が大変3の集計・グラフ化についても、色々と切り口を変えてデータを見る度に作業をやり直す必要があります。例えば、離職率の時系列を分析→離職率と残業時間の相関分析→残業時間の度数分布分析のように色々な分析を行うと、集計やグラフ化だけでも大きな時間がかかります。BIツールの比較汎用型と人事特化型上記を踏まえて、人事データを分析する際にはBIツールを導入することがおすすめです。BIツールには色々な種類がありますが、人事データを分析する上では「汎用型」「人事特化型」の違いが重要です。汎用型とは人事データ以外(営業、マーケティングなど)の分析用途にも使えるBIツールであり、人事特化型とは人事データの分析に特化したBIツールです。汎用型と人事特化型の違いを以下にまとめました。汎用型人事特化型設計コスト大小データの前処理コスト大小学習コスト大小柔軟な権限管理難易様々なコストが小さく済むことから、人事データ分析を行うためには人事特化型のBIツールを使うことをおすすめします。※汎用型・人事特化型について詳しく知りたい方は、人事データ分析におすすめのBIツールをご覧ください。Human & Humanここからはクラウドワークスで開発している人事特化型BIツールのHuman & Humanをご紹介させていただきます。人事でよく使う色々なデータベースや計算式がデフォルトで用意されているため、設計コストやデータのコストを小さく抑えることができます。また、他の多くの人事システムとAPI連携している他、データクレンジングのサポートもしてくれるため、データ分析の8割とも言われる前処理コストを大きく削減できます。1クリックで色々な軸でデータを分析でき、複数軸のかけあわせもできます。(例)部署別×男女別の離職率散布図やヒートマップを使って複数の人事データの相関を調べることもできます。(例)残業時間と離職率の相関また、取り込んだ人事データを元に、人的資本開示の項目を自動集計してくれます。Human & Humanでは時系列分析・度数分布分析・相関分析などを簡単に行えます。↑時系列分析↑度数分布分析↑相関分析Human & Humanについて詳しく知りたい方は、以下より資料請求・トライアル申込お願いいたします。