pandas-profilingを使うと以下の6つの項目が瞬時に確認できます。
①Overview
・Dataset statistics
・Variable types
・Warnings
②Variables
・statistics
・Histgram
・Common Values
・Extreme Values
③Interactions
④Correlations
⑤Missing values
⑥Sample
HTMLファイル形式で解析結果を出力できるので、データ分析を依頼された際に一瞬でレポートとして渡すことも可能です。
Pythonでデータ解析を行う際にやっておいて損はないツールだと思いますので、インストールがまだの方はぜひ試してみてください。
Anacondaのインストールがまだの方はこちらの記事を参考に準備してください。
Jupyter notebookの起動と使い方まで紹介しています。
Jupyter notebookを起動して下記コマンドを実行します。
pip install pandas-profiling
必要なライブラリをインポートします。
import pandas as pd
import pandas_profiling as pdp
解析に使用したいデータフレームをpd.read_csvで読み込みます。
今回はこちらのデータを使用した場合の例について紹介します。
👉クリックでダウンロード titanic
下記記事のpandasgui.datasetsからtitanicをインポートすると同じようなタイタニックの生存データを読み込めます。
KaggleやSignateのような機械学習コンテストのチュートリアルで良く使用されるデータセットです。
df = pd.read_csv('titanic.csv')
pdp.ProfileReport(データフレーム)の一文だけでJupyter notebook上にレポートが表示されます。
pdp.ProfileReport(df)
pandas-profilingの優れている点としてHTML出力できる点が挙げられます。
レポート内の詳しく知りたい情報があればベージ上で詳細をクリックしながら深堀りできるので効率良くデータ分析ができます。
先ほどのpdp.ProfileReport(データフレーム)をprofileという変数に代入しておき、to_file(HTMLファイル名)で簡単に保存できます。
profile = pdp.ProfileReport(df)
profile.to_file("sample.html")
実際にHTML出力したファイルがこちらです。