HOME総合情報概要・基本データ刊行物教養学部報668号(2025年12月 1日)

教養学部報

第668号 外部公開

データサイエンス入門『Rによる統計データ解析』の紹介

小池祐太

image668-02-3.jpg データサイエンスという言葉が定着して久しいです。ChatGPTに「日本でデータサイエンスが注目され始めたのはいつ頃からですか」と尋ねてみたところ、大きく分けて(1)萌芽期(二〇一〇年前後〜二〇一三年頃)、(2)成長・制度化期(二〇一四~二〇一八年頃)、(3)AI融合・DX期(二〇一九年以降)の三つの段階に整理できる、との回答が返ってきました。調べてみると、二〇一四年は日本初のデータサイエンス学部設置に向けて滋賀大学が動き出した年で、実際に二〇一七年に無事開設されました。二〇一七年は文部科学省の学習指導要領が現行のものに改訂された年でもあり、統計や情報に関する教育が大きく拡充されました。高等学校では、二〇二二年度から年次進行で実施されましたので、今年度入学された新一年生の皆さんの多くは、強化されたデータサイエンス教育のもとで学んだ第一世代ということになります。

 さて、本学でもデータサイエンス教育の強化のために、二〇一七年二月に「数理・情報教育研究センター(MIセンター)」が設置され活動を開始しました。その活動の一環として、二〇一七年度から、教養前期課程の総合科目として「統計データ解析Ⅰ」(Aセメスター)、「統計データ解析Ⅱ」(Sセメスター)というデータサイエンスに関する入門講義が開講されています。本記事で紹介する『Rによる統計データ解析』は、これらの講義の内容を統合して書籍化したものです。データサイエンスは分野横断的な学問で、MIセンターのウェブサイトに掲載されているベン図では、数学・統計学・情報学にまたがる形で表現されています(データサイエンスのベン図としてよく紹介されるものは、これらに「データの背景に関する専門知識」を加えたものですが、それは後期課程の専門教育で身につけられるでしょう)。書名からも分かるように、本書は統計学に比重を置いていますが、理論・実践の「二兎を追う」ことを目指し、それぞれにおいて数学と情報学も活用されます。まず、大規模なデータ処理のためにはプログラミングが必須であり、本書では書名にもあるR言語を用いて実践します。そのため、はじめの1〜3章ではRの基本的な使い方とデータを整理・可視化する方法を説明しています。一方で、続く4、5章では統計的な推測の基礎をなす数学的ツールである極限定理や確率分布を扱います。これらの準備の後、6~9章では統計的な推測の基本的概念を、10~13章では多変量解析や時系列解析における具体的な統計解析手法を取り上げて説明しています。上述の統計データ解析Ⅰ、Ⅱの講義は独立して受講することが可能で、Ⅰでは書籍の1〜9章の内容を、Ⅱでは1〜3、5および10~13章の内容を扱います。

 本書は「二兎を追う」ことを目指す性質上、理論的な説明を詳細に理解するためには、大学教養課程で扱うレベルの微分積分学や線型代数学の知識が必要となります。ただし、適宜シミュレーションによる説明や実際のデータ解析事例を交えて説明することで、詳細な数学的知識がなくても統計理論の内容が意味するところを理解できるよう試みています。特に、講義はそのような実践を通した説明をメインにしています。一方で、統計理論の背景にある数学的なロジックをより深く知りたい読者のために、本書で取り上げた命題や定理について可能な範囲で厳密な証明を補遺で与えています。例えば、高校の教科書で「事実」として述べられている、標本平均の分布が正規分布で近似できるという現象も、数学的な「定理」としてきちんと証明できます。

 統計解析では、データを確率分布からの生成結果と捉える考え方が重要ですので、5章の確率分布は統計データ解析Ⅰ、Ⅱの講義で共通に扱いますが、このアイディアは冒頭で出てきたChatGPTのような生成AIとも密接に関連しています。生成AIは、テキストや画像などを何らかの確率分布から発生したものとみなし、その確率分布の学習を目標としていると定式化できます。生成AIの成功は上記の統計学の考え方の「尤度(尤もらしさ)」を高めたように思います。

(数理科学研究科)

第668号一覧へ戻る  教養学部報TOPへ戻る

無断での転載、転用、複写を禁じます。

総合情報