rna-seq

MacやLinuxを使わずにRNA-seqの解析を行う①~Google ColaboratoryでRNA-seq解析~準備編

おすすめはしません。

MacやLinuxユーザーは前の記事を参考にしてください。

Windowsユーザーやマシンパワーが弱く自前でRNA-seqができない人用です。

ちなみにWindows10ユーザーは頑張れば自前でできます。

対象となる方

Mac・Linux・Windows 10ユーザーだけど、マシンスペック・・・

Windows 8 以前ユーザー

iPad ユーザー (キーボード入力必須)

条件

  • Googleアカウントを所有している

  • Google Driveに十分な空き容量があること
    場合によっては有料(月250円)を使うことも必要

注意

  • 本記事ではRNA-seqに関する細かいコマンドは説明しません。

  • Google Colaboratoryを使ってRNA-seqを行う点に注力します。

  • RNA-seqの解析法について細かく知りたい方は下記リンクを御覧ください。

環境構築

今回ではgoogle colaboratory上で環境構築をしていきます。
行うことは

  1. minicondaとライブラリのインストール
    2.リファレンスゲノムのダウンロードと解凍

  2. アノテーションファイルのアップロード

Minicondaとライブラリのインストール

%%bash
wget https://repo.continuum.io/miniconda/Miniconda3-py38_4.8.3-Linux-x86_64.sh && bash Miniconda3-py38_4.8.3-Linux-x86_64.sh -bfp /usr/local

conda config --add channels conda-forge
conda config --add channels bioconda
conda install hisat2 samtools stringtie

RNA-seq解析用のライブラリ(HISAT2, samtools, stringtie)は最後の行で一気にインストールしています。

必要なファイルのダウンロード

リファレンスのダウンロードとファイルの解凍

%%bash
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
tar -zxvf mm10.tar.gz
rm mm10.tar.gz 

アノテーションファイルの解凍

アノテーションファイルはブラウザを使用してUSCSのHPからダウンロードしたものを
Google Colaboratoryのディレクトリ/contentにアップロードしてください。
アノテーションファイルの取得方法は、

外部リンクここの「アノテーションファイルの取得」を参照くださいhttps://lifesciencehack-ai.hatenablog.com/entry/2020/08/16/%E8%B6%85%E5%88%9D%E5%BF%83%E8%80%85%E5%90%91%E3%81%91%EF%BC%81%EF%BC%81RNA-seq%E8%A7%A3%E6%9E%90%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA%E2%91%A4StringTie%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9:embed:cite

アップロードの仕方は、マウスでドラッグ・アンド・ドロップで可能です。
未解凍の.gzファイルの場合は以下のコマンドで解凍してください。

%%bash
gzip -d -k /content/UCSC.mm10.gtf.gz

アノテーションファイルの解凍

stringtieでgtfファイルをmergeさせる時に必要なmergelistファイルを作成しておきます。
詳細は、

外部リンクここの「gtfファイルをmergeする」を参照くださいhttps://lifesciencehack-ai.hatenablog.com/entry/2020/08/16/%E8%B6%85%E5%88%9D%E5%BF%83%E8%80%85%E5%90%91%E3%81%91%EF%BC%81%EF%BC%81RNA-seq%E8%A7%A3%E6%9E%90%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA%E2%91%A4StringTie%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9

テキストエディタで作成したものをcolaboratory上にアップロードしてもOKです。
今回はcolaboratoryを使って作成しました。

merge_list = ['SRR15719'+str(i)+'.gtf' for i in range(67,73)]
merge_txt = '\n'.join(merge_list)
with open('mergelist.txt', mode='w') as f:
    f.write(merge_txt)

以上で環境準備は終了です。
次回から実際にマッピングしていこうと思います