Python

【pandas-profilingでデータ解析】インストールから分析結果の可視化まで

pandas-profilingを使うと以下の6つの項目が瞬時に確認できます。

HTMLファイル形式で解析結果を出力できるので、データ分析を依頼された際に一瞬でレポートとして渡すことも可能です。

Pythonでデータ解析を行う際にやっておいて損はないツールだと思いますので、インストールがまだの方はぜひ試してみてください。

インストールについて

AnacondaのインストールとJupyter notebookの準備

Anacondaのインストールがまだの方はこちらの記事を参考に準備してください。

Jupyter notebookの起動と使い方まで紹介しています。

【2020年版、Python3をはじめよう!(Mac&Win対応)】AnacondaとJupyter notebookの始め方 はじめに Jupyter notebookとは Jupyter notebook(ジュピター・ノートブック)はブラウザ上で...

インストール方法

Jupyter notebookを起動して下記コマンドを実行します。

pip install pandas-profiling

インポートについて

必要なライブラリをインポートします。

import pandas as pd
import pandas_profiling as pdp

解析に使用したいデータフレームをpd.read_csvで読み込みます。

今回はこちらのデータを使用した場合の例について紹介します。

👉クリックでダウンロード titanic

下記記事のpandasgui.datasetsからtitanicをインポートすると同じようなタイタニックの生存データを読み込めます。

【PandasGUIで簡単データ解析】インストールから操作まで PandasGUIはノーコード(プログラミングなし)で、データ解析・可視化が可能な使い勝手の良いツールです。 フィルタリングやピボット...

KaggleやSignateのような機械学習コンテストのチュートリアルで良く使用されるデータセットです。

df = pd.read_csv('titanic.csv')

pdp.ProfileReport(データフレーム)の一文だけでJupyter notebook上にレポートが表示されます。

pdp.ProfileReport(df)

HTML出力

pandas-profilingの優れている点としてHTML出力できる点が挙げられます。

レポート内の詳しく知りたい情報があればベージ上で詳細をクリックしながら深堀りできるので効率良くデータ分析ができます。

先ほどのpdp.ProfileReport(データフレーム)をprofileという変数に代入しておき、to_file(HTMLファイル名)で簡単に保存できます。

profile = pdp.ProfileReport(df)
profile.to_file("sample.html")

HTML出力結果

実際にHTML出力したファイルがこちらです。

Mickey@コーヒー好きエンジニア

【製造業×プログラミング×AI】Python/VBAを活用した業務改善、Streamlit/Plotlyを活用したWebアプリ開発について初心者向けに発信中|趣味は自家焙煎コーヒー作り|noteでは焙煎理論を発信|ココナラではプログラミングに関する相談,就職/転職やコーヒーに関する相談などのサービスをやっています