こんにちは!
皆さんは「前処理大全 データ分析のためのSQL/R/Python実践テクニック」という本のことを知っていますか?
僕はこの前処理大全を、機械学習を研究で使うために勉強する上で4番目に使用しました。
一冊目は人工知能がどのようなものなのかという本、2冊目は機械学習アルゴリズムがたくさん載っている本、3冊目は機械学習の数学の基礎が簡単にわかる本です。
この本は、機械学習における前処理に関しての知識がいっぱい詰め込まれており、Python以外にもRやSQLでもコードが記述されているため、言語間の比較もできる非常に優秀な一冊です。
今回の記事では、以下の内容について紹介します。
- 前処理大全の対象読者
- 前処理大全の概要
- 前処理大全を読んでみた感想
「前処理大全 データ分析のためのSQL/R/Python実践テクニック」
Amazonではこの本は以下のように紹介されています。
「前処理」を効率よくこなすことで、予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。
本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR、Python、SQLを用いた実装方法を紹介しますので、複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。
前処理大全の対象読者
- 機械学習のアルゴリズムを勉強したが、前処理については全く知らない/基本的なことしか知らない方
- 前処理についてコードの効率の良い書き方から学びたい方
- PythonだけではなくRやSQLでのコードも勉強したい方
前処理大全では、機械学習を行う以前に行う必要がある前処理について詳細に書かれている本です。
機械学習において、前処理は軽視されがちですが、実はこの前処理が適切に行われているかで機械学習の精度は大きく変わってきます。
そのため、機械学習のアルゴリズムを勉強しただけでは、機械学習を使うのに十分とは言えず、前処理についてしっかりと学んでいく必要があります。
この本では、前処理の方法と、コードについて書かれているだけではなく、どのようにコードを記述すれば効率の良い記述ができるのかの説明がされています。
さらには、Pythonだけではなく、R、SQLのコードも掲載されているため、これらの言語についても知りたい!他の人が書いたPython以外のコードも読まないといけない!といった方にもおすすめです。
この本で前処理について勉強して、前処理に強いエンジニアになりましょう!
前処理大全の概要
この本は前処理とは何かというところから始まり、様々な前処理の方法について学び、最後に前処理を演習問題で実践してみるという流れになっています。
それでは、Partごとの概要を見ていきましょう。
Part1 入門前処理
Part1では、前処理についてあまり詳しくない方向けに、前処理とは何かというのを、データの種類から説明していきます。
そして、前処理の役割や前処理の流れなどを簡単に説明しています。
Python以外のRとSQLという言語についてもコードが掲載されているため、この3つの言語の使い分けというところもこのパートで触れています。
また、本の中で使用するデータセットの紹介やインポートの仕方というところも説明しています。
このPartを読めば、前処理を行う準備が完了しますね。
Part2 データ構造を対象とした前処理
データ構造を対象とした前処理とは、複数の行に跨ったデータ全体に及ぶ処理のことです。
これには、抽出や集約、結合、分割などがあります。
例えばランダムサンプリングによって、ランダムに行を抽出するなどです。
Part3 データ内容を対象とした前処理
データ内容を対象とした前処理とは、行ごとのデータ値に応じた処理のことです。
数値型データへの処理や、カテゴリ型データへの処理、日時型データへの処理、文字型データへの処理などがあります。
例えば、年齢の数値を年代を表すカテゴリ型データに変換する方法などを紹介しています。
Part4 実践前処理
最後のPartでは、3つの大門を演習形式で解いていきます。
Part3までの知識がしっかりと頭に入っていればちゃんと解けるような問題です!
問題を通して、前処理大全の復習をしましょう!
前処理大全を読んだ感想
まずこの本の最初に前処理の重要性というところを熱く語られていました。
そこで、前処理の重要性を知ることができ、前処理を学ぶモチベーションが上がりました。
また、良いコードと悪いコードの両方が書かれている部分もあり、プログラミングする上で非常に参考になりました。
僕としては、Rの勉強もできる点も非常にありがたかったです。
なぜかと言いますと、私は研究でPythonを使用しているのですが、過去の関連研究では、Rが使用されているものも多く、Rを読む必要がある場合もあったからです。
前処理の勉強をしながらRの勉強もできたので、一石二鳥でした!
前処理大全は、前処理をメインに書かれている数少ない参考本です。
ぜひ前処理を勉強したい方は読んでみましょう!
まとめ
今回の記事では、以下の内容について紹介しました。
- 前処理大全の対象読者
→前処理を学びたい方
R, SQLのコードも見たい方 - 前処理大全の概要
→前処理の入門
前処理の方法
前処理の実践演習 - 前処理大全を読んでみた感想
→前処理をしっかり学ぶにはこの本!
機械学習の勉強をしているかたは、ぜひ前処理にも力を入れてみてください!
きっとさらに成長できるはずです!