箱ひげ図
箱ひげ図は、データの分布やばらつきを視覚的に示す統計グラフである。データセットの最小値、最大値、中央値、第一四分位数(Q1)、第三四分位数(Q3)などの代表的な数値を一度に表示できるため、データの全体像を理解するのに役立つ。箱ひげ図は、「箱」と「ひげ」によって構成され、箱の内部には中央値が線として表示される。これにより、データの中心傾向や散らばり具合を直感的に捉えられる。
箱ひげ図の構成要素
箱ひげ図は、いくつかの重要な構成要素から成り立っている。まず、箱の下端は第一四分位数(Q1)、上端は第三四分位数(Q3)を示しており、この範囲が全データの50%を包含している。箱の中に引かれた線はデータの中央値を示す。一方、箱から伸びる「ひげ」は、最小値と最大値、または1.5倍の四分位範囲(IQR)内の最大と最小のデータ値を表す。箱ひげ図は、これらの構成要素を通じてデータの分散や偏り、外れ値を明確に示す。
外れ値の特定
箱ひげ図は外れ値(極端な値)を視覚的に特定するのに優れている。外れ値とは、通常のデータ範囲から大きく外れた値を指し、箱ひげ図では通常、箱のひげの範囲を超えたデータ点としてプロットされる。具体的には、ひげの長さは1.5×IQRまでを示し、それを超える値は点で示される。これにより、外れ値を見つけやすくなり、異常値や例外的なデータの影響を考慮する際に非常に有用である。
五数要約
五数要約は、データを5つの指標(1中央値、2最大値、3最小値、4上側ヒンジ、5下側ヒンジ)で表すことをいう。上側ヒンジとは、最大値と中央値の中間に位置する値で、全データの75%がその値より小さくなる数値である。下側ヒンジは最小値と中央値の中間に位置する値で、全データの25%がその値より小さくなる数値である。上側ヒンジと下側ヒンジの差をヒンジ幅、または、四分位範囲と呼び、ばらつきの大きさを示す。
箱ひげ図の作成方法
箱ひげ図を作成する際の手順は次の通りである。まず、データセットを昇順に並べる。次に、中央値(メディアン)、第一四分位数(Q1)、第三四分位数(Q3)を求める。その後、IQR(Q3 – Q1)を計算し、1.5×IQRを上端と下端に加減することで外れ値の範囲を決定する。
箱ひげ図の描き方
まず、中央値(メディアン)、上側ヒンジ、下側ヒンジを使って箱を作る。つぎに、ヒンジ幅の1.5倍のところまで、各ヒンジから線(ひげ)を引く。ひげの先端は、ひげ端と呼ぶ。ここで、最大値(MAx)や最小値(Min)が、ひげ端より箱に近いときには、最大値(最小値)をひげ端にする。ひげ端より大きい、または、小さいデータは、はずれ値として、丸などの記号で表示する。
箱ひげ図のメリットとデメリット
箱ひげ図のメリットは、データの中心傾向、ばらつき、偏り、外れ値を一目で把握できる点である。特に、異なるグループ間でデータを比較する際に、その違いを視覚的に示すことができる。一方で、データの詳細な分布や個々のデータポイントの情報は提供されないため、詳細な分析には不向きな場合もある。このため、箱ひげ図は他の統計グラフと組み合わせて使用することで、より効果的なデータ分析が可能である。
他のグラフの比較
箱ひげ図は、ヒストグラムや散布図などの他のグラフと比べて、データの分布を簡潔に表現できる点が特徴である。ヒストグラムはデータの頻度分布を詳細に示すが、箱ひげ図は一目でデータの中央値(メディアン)、ばらつき、外れ値を示すため、複数のデータセットを比較する際により効率的である。また、散布図と異なり、箱ひげ図はデータの代表的な数値をコンパクトに表示するため、大量のデータを扱う際に有用である。
ヒストグラム
散布図
箱ひげ図の活用例
箱ひげ図は、さまざまな分野でデータの分析に利用されている。例えば、ビジネスの売上分析においては、異なる月や地域ごとの売上の分布を比較する際に使用できる。また、製造業では品質管理の一環として、製品のサイズや重量などの測定データのばらつきを確認するために用いられる。さらに、医療分野では患者データの分析において、血圧や体重などのばらつきや外れ値を把握するために用いられる。