データ解析を行う上で必須の操作であるコマンドラインの使い方の基礎を説明したうえで、生命科学領域の代表的な6つの解析手法を取り上げ、その具体的な手順を、実際にコンピュータを操作しながら追っていけるように詳しく解説。 読者がコマンドの意味を理解しながらコマンドラインを使いこなせるようになることを目指す実践書。姉妹書『Dr.Bonoの生命科学データ解析』を教科書として参照すればなお理解が進む。
電子版はこちら(医書JP)
Dr. Bono のデータ解析8 箇条
1 章 準備編
1.1 Mac を買おう
1.2 Mac をセットアップしよう
1.3 周辺機器の設定
2 章 基礎編
2.1 UNIX コマンドラインを使ってみよう
2.2 コマンドラインの基本操作
2.3 シェルプログラミングのための環境構築
2.4 ネットワークを介して遠隔のコンピュータを操作する
3 章 実践編
3.1 公共データベースからのデータ取得
3.2 配列類似性検索
3.3 系統樹作成
3.4 ドメイン解析
3.5 発現定量解析
3.6 データ統合解析
2001年にmacOS にUNIX が採用される前から,生命科学分野ではmacOSが好んで使われてきた。グラフィカルなインターフェースが生命科学研究者にとって親しみやすかったのだろう。そればかりでなくOS Xとなってからは,UNIXが使える生命科学研究ツールとしてmacOSの利用価値が高くなった。UNIXとしてのMacの素晴らしさを紹介した『バイオ研究が10倍はかどるMacOS X活用マニュアル』(中村保一,礒合敦,荻島創一著,羊土社,2003)が2003年に発刊された。当時のmacOSのバージョンは10.2で,それをベースとして執筆されていたが,macOSはその後なんどもアップデートし,16年経った2019年4月現在,バージョン10.14.4となっている。
2017年に上梓した拙著『Dr. Bonoの生命科学データ解析』(以下,Bono本)は幸いにも好評をもって多くの生命科学研究者に迎えられた。発売後間もない2017年12月に静岡,2018年4月に大阪にて読書会が開催され,この本に書いてあることに対する自分の解釈を発表し,参加者たちとの議論がなされた。著者であるDr. Bonoも参加したのだが(大阪での会はtwitter参加であったが),その際に指摘されたことが「本に掲載されているコマンドをそのとおり打ちこんでも動かない」ということであった。確かにBono本には実践的な内容は盛りこまれてないので,書いてあるコマンドはまったく同じようには実行できないものも多くあるし,そもそもテストデータなども提供されていない。教科書として,コマンドとはどういうものかを知ってもらう例としてあげていただけで,読者が実際にそれをコンピュータ上で打ちこんでたどっていくことまでは想定していなかった。
他方,Bono本よりも先に出版され,次世代シークエンサー(NGS)のデータ解析におけるバイブル的な存在となっている書籍として『次世代シークエンサーDRY 解析教本』(清水厚志,坊農秀雅監修,学研メディカル秀潤社,2015)がある(以下,DRY本)。このDRY本は,NGSを利用したプロトコル本で,極めて実践的な内容であり,実際にコマンドを打ちこんで(同じ文字を打ちこむことから写経して,といういい方をする)独習するタイプの本である。これまで日本語での学習リソースがほぼなかったNGSデータ解析分野においては非常に有用なのだが,生命科学のデータ解析は広く多様なため,すべての生命科学データ解析をカバーすることはできてない。すなわち,NGSが登場する前からあった基本的なバイオインフォマティクスのスキル,例えば,配列類似性検索や系統樹作成,タンパク質ドメイン解析が抜けているのだ。
そんな中,メディカル・サイエンス・インターナショナルの星山大介さんから生命科学者向けのプログラミングの本を出したいという話があった。生命科学データを題材としてPythonなどのプログラミング言語を紹介する書籍はあるものの,それらのプログラミングだけできても生命科学データ解析の達人にはなれない。それならば,生命科学データ解析のためのコンピュータリテラシーをきっちりと身につけられるコンテンツにしたほうがよいだろうと考えた。そこで,Dr. Bonoが普段から共同研究として行っている生命科学データ解析の現場から実践的な内容を紹介する形で,Bono本の実践編として出してはどうかと提案した。それが本書である。
Bono本でカバーしきれなかったUNIXコマンドラインの使い方から,データ解析の実践的な手順を詳しく,ハンズオンで追っていけるようなレベルで解説した。また,それらを併せて解釈するために必要なちょっとしたテクニックを,本筋からは脱線気味になることは承知の上でふんだんに紹介した。写経できるコンテンツももちろん多くあるのだが,本に書いてあるとおりにそのまま打ちこんでいけば解析ができるのではなく,読者であるあなたが意味をきちんと理解してコマンドを入力していく,そんなスタイルをめざした。基本的にmacOSでの実行を前提として書かれているが,UNIXであれば問題なく,クラウド上のLinuxでの利用も想定している。
本書を執筆するに当たり,東京農工大学大学院グローバルイノベーション研究院の天竺桂弘子准教授との数々の共同研究がその屋台骨となっている。また,本書にある多くのコマンドを試していただき,わかりにくい点を指摘してくれた,天竺桂研究室の大学院生,坂本卓磨さんに感謝する。
本書を参考に,読者のみなさんがより自在に生命科学データ解析されんことを祈る。
2019年春 雪解けの富士山麓,三島にて
坊農秀雅
2020-10-06
【正誤表】下記の箇所に誤りがございました。ここに訂正するとともに, 読者の方々に深くお詫びいたします。
94頁 表3.1 右下
(誤)tblastx
(正)blastp
2020-03-25
【正誤表】下記の箇所に誤りがございました。ここに訂正するとともに, 読者の方々に深くお詫びいたします。
88頁 コマンドライン内1行目および2行目
(誤)~/Documents/datadojo/
(正)~/Downloads/datadojo/
2020-01-14
【正誤表】下記の箇所に誤りがございました。ここに訂正するとともに, 読者の方々に深くお詫びいたします。
126頁 2行目
(誤)大阪大学タンパク質研究所
(正)大阪大学蛋白質研究所