PandasGUIはノーコード(プログラミングなし)で、データ解析・可視化が可能な使い勝手の良いツールです。
フィルタリングやピボットなどデータ整理にも使えるツールもそろっているので、プログラミング初心者だけでなく、機械学習やデータサイエンスに興味がある方にもオススメです。
本記事ではPandasGUIのチュートリアルを解説している海外記事を参考に作成しています。
それでは早速解説していきます。
Anacondaのインストールがまだの方はこちらの記事を参考に準備してください。
Jupyter notebookの起動と使い方まで紹介しています。
Jupyter notebookを起動して下記コマンドを実行します。
pip install pandasgui
必要なライブラリをインポートします。
pandasgui.datasetsからtitanicをインポートするとタイタニックの生存データを読み込めます。
KaggleやSignateのような機械学習コンテストのチュートリアルで良く使用されるデータセットです。
import pandas as pd
from pandasgui import show
from pandasgui.datasets import titanic
show()でPandasGUIが起動します。
gui = show(titanic)
下記写真のようなPandasGUIアプリが起動します。
右上のタグから5つの用途を選択できます。
①DateFrame・・・読み込んだデータの中身が表示される
②Filters・・・フィルタリングしたい内容を入力
③Statistics・・・統計的なデータを表示可能
④Grapher・・・グラフ作成が可能
⑤Reshaper・・・pivot(ピボット)/melt(溶かす)などデータ整理が可能
それでは一つ一つ解説していきます。
データフレームにデータの一覧が表示されます。
タイタニックのデータでは下記内容のようなデータが入っています。
PassengerId: 乗客のID
Survived: 生存(1)、死亡(0)
Pclass: 乗客の階級
Sex: 性別
Age: 年齢
SibSp: 兄弟、姉妹、義兄弟、義姉妹、夫、妻の数
Parch: 母親、父親、息子、娘の数
Fare: 乗船料金
Embarked: 乗船場
次に説明するFiltersで好きなデータのみ表示するようにカスタマイズできます。
図のようにFiltersのタグをドラッグ&ドロップで移動してみましょう。
フィルタの設置画面とデータフレームの画面が分かれるので同時にみられるようになります。
フィルタリングしたい条件を追加していき、Add Filterを入力します。
index部分を見るとわかりますが、表示されるデータがフィルタした内容で絞られていきます。
Type: データ型
Count: データ数
N Unique: 項目の種類
StdDev: 標準偏差
Min: 最小値
Max: 最大値
といった統計的データが一望できます。
グラフは好みのアイコンをクリックして、右下窓に表示されるxやyに左下窓からデータ列をドラッグ&ドロップで移動させます。
セットが終わったら右下のFinishをクリックするとグラフが表示されます。
グラフの可視化ではplotlyが使われています。
気に入ったグラフが作れそうな場合にレイアウトなどを整えたくなると思います。
プログラミングが必要ですが、下記を参考にする事で資料やプレゼンで使えるこだわりのグラフも作成できます。
https://cafe-mickey.com/category/python/plotly/
PivotとMeltが使用できます。
Pivotはエクセルのピボットテーブルのようなもの、Meltは溶けるの意味ですが良くわかりません。
最後にちょっとした便利機能の紹介です。
データはコピー&ペーストでエクセルなどに簡単に貼り付け可能です。
CSVのデータをドラッグ&ドロップで簡単にインポートできます。
いかがでしたか?
操作も簡単でシンプルなので使い勝手良いと感じています。
データの中身をチェックして簡単に可視化したいときに気軽に使えて良いツールだと思いうのでまだインストールしていない方はぜひ一度使ってみてください。