あさの畑

プログラミングが好きな大学生のブログ。統計学や機械学習の勉強記録と、SIGNATE/Kaggle/AtCoderのお話。

【超入門】統計解析ソフトRの始め方ーインストール, 簡単な計算, データの視覚化ー

Rとは?

Rとは、主に統計解析に使われるフリーのソフトウェアです。データ分析をするためのプログラミング言語のひとつだと思ってください。役割としてはExcelやSPSSなどと同じような感じです。

 

ホームページはこちらです。

https://www.r-project.org/

 

インストールの方法

次のサイトにアクセスしてください。

https://cran.ism.ac.jp/

中央上部の「Download and Install R」というところで、OSを選択してリンクをクリック。

 

Windowsの場合は後はわかりやすくて、指示通り進めていけば大丈夫です。現在では、「R 3.5.1」がインストールされます。

 

基本的な操作

さっそく起動してみる!

では、さっそくインストールしたRを起動しましょう。

画面は以下のようになっていると思います。

f:id:gadada:20181014162242p:plain

 

「>」の後にコードを書いて実行していく形になります。

 

簡単な計算をする

では、まず簡単な計算をしてみましょう。

 

次のようにすることで足し算をすることができます。(半角で入力してください。)

> 2+3

同様に、

> 5-3
> 4*2
> 9/3

とすることで、引き算、掛け算、割り算を計算することができます。

 

もちろん数字だけじゃなくて文字も扱うことはできますが、ここではとばします。

 

実際のデータを扱ってみる

それでは早速ですが、実際のデータを用いて平均を求めてみたり、データの視覚化を行ってみたりしましょう。

 

Rには、データセットがもともと装備されているので、それを使うことにします。

 

データを探す

> data()

とすることで、データの一覧を見ることができます。

 

今回は「rivers」というデータを使ってみましょう。これは、北アメリカを流れる河川の長さのデータのようです。

 

> rivers

とすることで全データを見ることができます。141の河川のデータがあることがわかります。ちなみに実行したときに左側に表示される [1] のような数字はあまり気にしなくても大丈夫です。

 

データの単位は「km」でしょう。ちなみに、北アメリカで一番長い川はミシシッピ川の本流で、3779kmらしいです。

 

平均を求める

平均を求めてみましょう。

> mean(rivers)

「591.1844」と表示されました。

 

分散、標準偏差を求める

続いて、データの散らばり具合を表す分散と標準偏差です。分散には、不偏分散と標本分散があるのですが、ややこしいことは置いておいてとりあえず求めてみましょう。

 

分散(不偏分散)を求めます。

> var(rivers)

次に、標準偏差です。

> sd(rivers)

いかかでしょうか!?

 

ヒストグラムを描く

では最後に、ヒストグラムを描きます。

ヒストグラムとは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。(Wikipedia)

 

Wikipediaには難しく書かれていますが、ヒストグラムを知らない人でも、図を見れば何を表してるか何となくわかると思います(笑)

 

> hist(rivers)

 

f:id:gadada:20181014171853p:plain

 

できました!

 

横軸は河川の長さ、縦軸は河川の本数を表していて、「500km以下の短い川が多いのだなあーーー」ということが感覚的にわかるわけです!

 

統計分析にRを気軽に使ってみよう!

いかがでしたか?

 

どうしてもプログラミングって聞くと拒否反応を示してしまう人もおられるかと思います。しかし、R言語は情報系に限らず、大学院生が普通にデータ分析やシミュレーションに使っていますので、あまり恐れることはないです。

 

この記事では、本当にRの最初の部分を簡単にまとめました。プログラミングをしたことがない人でもわかるように書いたつもりです。

 

少しでも興味を持った方はぜひぜひもっと深く勉強してみてはいかがでしょうか。もっと複雑なことができて楽しくなってくると思います!