超初心者向け!! RNA-seq解析シリーズの記事になります。
今回は、解析に使うデータを公共データベースからダウンロードしていきたいと思います。
NGS公共データベース
では、早速公共データベースよりRNA-seqデータをダウンロードしていきます。
NGSのデータベースはDDBJやNCBI、EBIがありますが、
貯蔵されているデータはそれらの間で定期的に同期されているので、
ほぼ同じと考えて大丈夫です。
今回は_DDBJ_を使いたいと思います。
今年のノーベル賞がHIF1でしたので、
HIF KO transcriptomeをキーワードに検索してみましょう。
ダウンロードファイルの検索
解析に使うデータを公共データベースより検索します。
今回は、「HIF KO transcriptome 」で探してみます。
まずは、以下のリンクよりDDBJサイトを開きます。
ブラウザはChromeを激しく推奨します。
Safariだと途中でFTPが見れなくなる可能性大!!
DDBJのサイトはこちら→[https://www.ddbj.nig.ac.jp/dra/index.html:title\]
- DDBJのホームページを開いて、Searchをクリック
[f:id:tottoham:20191125224707p:plain]
KeywordにHIF KO transcriptomeといれて、Searchをクリック
[f:id:tottoham:20191125233029p:plain]
Study列の「SRP046746」をクリックしてみましょう
[f:id:tottoham:20191125233244p:plain]
AbstractとExperimentを確認
[f:id:tottoham:20191125230958p:plain]
その実験の概要と各サンプル情報とデータへのリンクが確認できます Experiment欄にそれぞれのサンプル情報とデータへのリンクが記載されています Experimentには6つのリンクがありますので、サンプルは全部で6サンプルでそれぞれ、SRX698161、SRX698162、SRX698163、SRX698164、SRX698165、SRX698166というIDが付いていますね
Experimentの一番上「SRX698161」を開いてみましょう
サンプル情報をよく確認
[f:id:tottoham:20191125231914p:plain]
● 何処置サンプル?コントロール?→ Title ● RNA-seq?→ Strategy ● 動物はなに?→ Organism ● シングルエンド?ペアエンド?→ Layout
これらを確認しておきましょう。
FTPによるダウンロード
解析するデータも決まり、内容も確認しましたので、
実際にダウンロードしていきましょう!!
DDBJからはサーバーとのやりとりで使われるFTPを介してダウンロードできます。
FTPでは簡単にデータのやりとりができますが、速度が遅いことが多々あります。
気楽にすぐにダウンロードしたい方はFTPで十分だと思います。
ダウンロードはブラウザでクリックでもできますが、
折角ですのでターミナルを使いましょう。
FTPでのダウンロードにはwgetコマンドを使用します。
wgetのインストール
ターミナルを開いて出てくる$の後に、
以下のコマンドを打ってwgetをインストールします
$ brew install wget
試しに、$の後ろに以下のコマンドを入力してヘルプが出れば、インストール完了です。
$ wget --help
ダウンロードURLの取得
※必ずChromeで行ってください!!
先程のStudyのページからそれぞれのExperimentにある
fastqをクリックしましょう!!
すると、今回を例にとるとidの後ろに_1と_2のある.fastq.bz2ファイルがあるかと思います。
今回はペアエンドでのRNA-seqでしたので、_1と_2があります。
それぞれ、ダウンロードしましょう。
その前にフォルダ(ディレクトリ)の確認と移動は忘れずに!!
今回は、デスクトップにRNA-seqというフォルダを新たに作り、
そこに移動してそこにダウンロードしていきます。
$ pwd
/users/UserName/
$ cd Desktop
$ pwd
/users/UserName/Desktop
$ mkdir RNA-seq
$ cd RNA-seq
$ pwd
/users/UserName/Desktop/RNA-seq
mkdir フォルダ名で新しいフォルダを作成できます。
RNA-seqというフォルダを作り、cd でそのフォルダに移動しました。
今回はここにfastqファイルをダウンロードしていきたいと思います。
ダウンロードする際はwget -c urlでダウンロードできます。
-cの前後は半角スペースです。
urlの部分には実際のFTPサーバーのURLを入れます。
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_2.fastq.bz2
ファイルの解凍
bzip2ファイルの解答はbzip2 -d fileコマンドでできます。
-dの前後は半角スペースです。
fileのところには実際のファイル名が入ります。
bzip2 -d SRR1571967_1.fastq.bz2
bzip2 -d SRR1571967_2.fastq.bz2
bzip2 -d SRR1571968_1.fastq.bz2
bzip2 -d SRR1571968_2.fastq.bz2
bzip2 -d SRR1571969_1.fastq.bz2
bzip2 -d SRR1571969_2.fastq.bz2
bzip2 -d SRR1571970_1.fastq.bz2
bzip2 -d SRR1571970_2.fastq.bz2
bzip2 -d SRR1571971_1.fastq.bz2
bzip2 -d SRR1571971_2.fastq.bz2
bzip2 -d SRR1571972_1.fastq.bz2
bzip2 -d SRR1571972_2.fastq.bz2
これで解析用ファイルの準備が完了しました。
次回からはいよいよHisat2によるマッピングを行っていきます。