PythonライブラリのPandasを徹底解説！

ゆうすけ

PythonライブラリのPandasについて詳しく知りたいです。

資格マフィア

Pandasは主にデータ分析などでよく使われる。
最近、注目度が高まってきている人気ライブラリだ。

✔️ 本記事のテーマ

Pandasについて（Pythonライブラリ）

✔️ 読者さんへの前置きメッセージ

本記事は「Pandas（Pythonライブラリ）」について書いています。

この記事を読むことで「Pandasの使い方や便利な関数」を理解できます。

Pandasはデータ分析によく使われるPythonライブラリです。

ただし、Pandasはその便利さゆえに機能が多く、使い方に迷うこともあるでしょう。

そこでこの記事ではPandasの使い方を関数ベースで解説します。

また、イメージしやすいように、実際のデータ分析を行う手順に解説しています。

よく使う関数をまとめたので、この記事で解説している関数さえ知っておけば、ある程度は使うことができます。

それでは、Pandasの使い方を解説していきましょう。

PythonでPandasを使うためには（準備）

Pandasはサードパーティ製のPythonライブラリです。

そのためPythonからPandasを使えるようにするには、いくつかの準備が必要です。

具体的には、以下の作業が必要です。

pandasを環境にインストールする
pandasをimportする

順番に詳しく解説しましょう。

pandasを環境にインストールする

まず使用しているPython環境にPandasライブラリをインストールしましょう。

ターミナル（Windowsならコマンドプロンプト）で以下のコマンドを実行すればOKです。

pip install pandas
# 場合によってはpip3 install pandas

「Successfully installed ~」と表示されていれば、Pandasライブラリのインストールが成功しています。

pandasをimportする

Pandasライブラリのインストールが完了したら、次はPythonモジュールでimportしましょう。

importをすることでそのモジュールの中で、pandasライブラリを使うことができるようになります。

モジュールの一番上に以下の記述を書けばOKです。

import pandas as pd

なお、pandasライブラリは一般的に「pd」という名称でimportされます。

PythonでPandasデータを確認する

PandasのDataFrameはExcelの表のようなデータ形式です。

df = pd.DataFrame(
    {
        '社員番号': [345, 11, 567, 201, 108, 78, 22, 498],
        '役職': ['リーダー', '部長', '平社員', 'リーダー', '課長', '課長', '部長', '平社員'],
        '氏名': ['高橋　F助', '山田　A郎', '山本　H二', '伊藤　E男', '鈴木　C太', '田中　D平', '佐藤　B夫', '渡辺　G朗']
    }
                  )

	社員番号	役職	氏名
0	345	リーダー	高橋　F助
1	11	部長	山田　A郎
2	567	平社員	山本　H二
3	201	リーダー	伊藤　E男
4	108	課長	鈴木　C太
5	78	課長	田中　D平
6	22	部長	佐藤　B夫
7	498	平社員	渡辺　G朗

なお、PandasのDataFrameについては
「PandasのDataFrameを徹底解説【コード付き】」の記事で詳しく解説しています。

Pandasのデータを確認するには以下の方法が便利です。

df.headを使う
df.tailを使う
列名で指定する
行数で指定する

順番に詳しく解説していきましょう。

df.headを使う

DataFrameのheadメソッドを使うことで、簡単にDataFrameの中身を確認することができます。

headメソッドは対象のDataFrameの先頭5行だけを表示します。

df.head()

	社員番号	役職	氏名
0	345	リーダー	高橋　F助
1	11	部長	山田　A郎
2	567	平社員	山本　H二
3	201	リーダー	伊藤　E男
4	108	課長	鈴木　C太

df.tailを使う

tailメソッドも便利なメソッドです。

tailメソッドは対象のDataFrameの後ろ5行だけを表示します。

df.tail()

	社員番号	役職	氏名
3	201	リーダー	伊藤　E男
4	108	課長	鈴木　C太
5	78	課長	田中　D平
6	22	部長	佐藤　B夫
7	498	平社員	渡辺　G朗

列名で指定する

DataFrameは表形式のデータなので、列名を指定して表示することができます。

以下のように指定することで、任意の列だけ抜き出して表示することができます。

df['氏名']

0	高橋　F助
1	山田　A郎
2	山本　H二
3	伊藤　E男
4	鈴木　C太
5	田中　D平
6	佐藤　B夫
7	渡辺　G朗

行数で指定する

逆に行数を指定して表示することもできます。

DataFrameの行数を指定するときは、locメソッドを使います。

例えば、1行目だけ表示して、データの構成を確認したいときは以下のようにします。

print_df = df.loc[1]

他にも例えば、1行目から3行目まで表示することも可能です。

print_df = df.loc[0:2]

	社員番号	役職	氏名
0	345	リーダー	高橋　F助
1	11	部長	山田　A郎
2	567	平社員	山本　H二

PythonでPandasデータを整形する

Pandasのデータを整形するときは以下の方法を使うときっと上手くいくでしょう。

列名を変更する
新たな列を追加する
値を昇順に並び替える
値を降順に並び替える

順番に詳しく解説していきましょう。

列名を変更する

表形式のDataFrameの列名を後から変更することも可能です。

以下のようにコードで列名を自由に変更することができます。

なお、引数inplaceをTrueに指定しないと、新たなDataFrameが生成されます。

df.rename(columns={'役職': '肩書き'}, inplace=True)

	社員番号	肩書き	氏名
0	345	リーダー	高橋　F助
1	11	部長	山田　A郎
2	567	平社員	山本　H二
3	201	リーダー	伊藤　E男
4	108	課長	鈴木　C太
5	78	課長	田中　D平
6	22	部長	佐藤　B夫
7	498	平社員	渡辺　G朗

新たな列を追加する

以下のようにdf[‘新たな列名’]とすることで、DataFrameに新たな列を追加することができます。

なお、列を追加する関数として、assign()メソッドも用意されていますが、上記の方法のほうが簡単です。

df['性別'] = '男'

	社員番号	役職	氏名	性別
0	345	リーダー	高橋　F助	男
1	11	部長	山田　A郎	男
2	567	平社員	山本　H二	男
3	201	リーダー	伊藤　E男	男
4	108	課長	鈴木　C太	男
5	78	課長	田中　D平	男
6	22	部長	佐藤　B夫	男
7	498	平社員	渡辺　G朗	男

値を昇順に並び替える

DataFrameはExcelのように、値を使って並び替えを行うことができます。

sort_values関数を使用して、引数byでどの列を使うかを指定しましょう。

ascending=Trueとすることで、昇順並び替えになります。

df.sort_values(by="社員番号", ascending=True)

	社員番号	役職	氏名
1	11	部長	山田　A郎
6	22	部長	佐藤　B夫
5	78	課長	田中　D平
4	108	課長	鈴木　C太
3	201	リーダー	伊藤　E男
0	345	リーダー	高橋　F助
7	498	平社員	渡辺　G朗
2	567	平社員	山本　H二

値を降順に並び替える

逆に降順に並び替えたいときは、ascending= Falseとすることで、降順並び替えになります。

df.sort_values(by="sales", ascending=False)

	社員番号	役職	氏名
2	567	平社員	山本　H二
7	498	平社員	渡辺　G朗
0	345	リーダー	高橋　F助
3	201	リーダー	伊藤　E男
4	108	課長	鈴木　C太
5	78	課長	田中　D平
6	22	部長	佐藤　B夫
1	11	部長	山田　A郎