Expression/Variant Analysis
Expression Analysis Workflow
Expression analysis Workflowでは、発現解析で統計解析が終了したデータを投入すると、優位遺伝子に対し、さまざまなアノテーションを付与する機能で、以下の目的で利用するとメリットがあります。
遺伝子と関係がある活性化合物を取得
⇒化合物による活性制御が可能な遺伝子(タンパク)を特定
1, 実測されたアッセイ情報を用いて遺伝子の化合物標的としての評価を迅速化
2, in vitro assayに用いる化合物の探索を通じてGene-Phenotype間の相関解析
3,情報の少ない遺伝子・タンパクの機能を結合化合物の作用から推定
操作メニュー
-
Expression/Variant Analysis タブをクリック
-
Expression Analysis workflowを選択
-
解析したいtsv 形式のファイルを”Drag & Drop File Here!”にドラッグ& ドロップする。
操作①
遺伝子またはタンパク質情報を含んだタブ区切りTXTファイルを指定の場所にDrag & Drop
※エクセルファイルは使用できません
操作②
アノテーション情報を付与したい遺伝子IDまたはタンパク質IDを選択
操作③
モデル動物(マウス・ラット・ゼブラフィッシュ)の場合、”Ortholog conversion input to GeneID(Human)”でHuman Orthologに変換可能
操作④
ヘッダー部分を選択
※ヘッダーがない場合は、この操作をとばします。
操作⑤
設定が終了したらAnalysisボタンをクリック
Expression Analysis workflow出力結果
Filter機能やテキストファイルのダウンロードができます
付与されるアノテーション情報
入力された統計解析データに加え、Basic AnnotationとAdditional Annotationが付与されます
Basic annotation
Colum name | Description |
---|---|
Entry_Name | UniProt Entry Name |
Accession | UniProt Accession |
Entrez GeneId | Entrez GeneID with Gene Symbol in blackets |
# GO term | Biological process
Cellular component
Molecular function |
#OMIMs | Number of disease names in OMIM |
#Pathways *1 | Number of Pathways in BioSystems |
#References | Number of references |
*1.Pathway Database:BIOCYC,KEGG, LIPID MAPS, Pathway Interaction Database, REACTOME and WikiPathways.
Additional annotation
Colum name | Description |
---|---|
#BioAssays in PubChem | Number of Assays in PubChem BioAssay, associated with Entrez GeneId. |
#CMPDs in PubChem BioAssay | Number of discrete compounds in corresponding PubChem BioAssay(s). |
#CMPDs in ChEMBL | Number of discrete compounds in ChEMBL Assay, associated with UniProt Accession. |
#Activities in ChEMBL Assays*1 | Number of activity values in corresponding ChEMBL Assay(s). |
#PDBIDs associated with EntryName | Number of PDBIDs associated with UniProt Accession. |
#Ligands in PDB | Number of Ligands in corresponding PDB structure(s). |
ChEMBL Assay;Target_ID_and_Name | Target ID and Name in ChEMBL ASSAY |
ChEMBL Assay;#Activities | Number of activities in ChEMBL ASSAY |
ChEMBL Assay;#Inhibitors(pAct>5) | Number of compounds, found as inhibitor |
ChEMBL Assay;#Binders(pAct>5) | Number of compounds, found as binder |
#PDBIDs associated with EntryName | Number of PDBIDs associated with UniProt Accession. |
#Ligands in PDB | Number of Ligands in corresponding PDB structure(s). |
# PFAM | ID and Name of the PFAM domain(s) associated with UniProt Entry Name. |
Statistics Test/GSEA/Bayes
遺伝子発現データの解析では、統計解析、GSEA解析、Bayes解析を提供しています。ここでは、GSEA解析について解説します。
解析の準備:以下の4ステップの操作で開始します
-
Expression/Variant Analysis タブを選択
-
Statistics Test/GSEA/Bayes タブを選択
-
解析したいtsv 形式のファイルを”Drag & Drop File Here!”にドラッグ& ドロップ
-
Analysis ボタンを押す
アップロードしたファイルの内容の表示
先頭5行が表示されるので、入力したサンプル(ここではCardiac cells_Normoxia_repとCardiac cells_48hrHypoxia )が正しく読み込まれているかを確認する。
タイトル行を選択する
タイトル行を選択する(左のチェックボックスで選択)。タイトル行以下はデータである必要がある。
アノテーションの基準となる項目の設定
Key Columnの設定
Entrez Gene IDび対応しています。Gene IDのカラムをKey Columnに設定します。
サンプル1と2の範囲指定
GSEAでは2群比較データを利用するので、サンプル1群、サンプル2群のサンプルグルームを設定します。
-
バーの左のチェックボックス(1)にマークすると、範囲選択用バーが表示される
-
バーをマウスの左ボタンでつかみ大きくスライドさせ、範囲を決める
-
範囲が決まったらバーの●を左クリックすると、Sample1/Sample2(Remain/Discard) を指定
-
解析に使用しないが、結果に残す場合はRemain、消去する場合はDiscardを指定
計算条件の設定(GSEAの例)
-
Step 1 で GeneID を選択
-
Step 2で Gene IDのSpeicies で Homo Sapienceを選択
-
Step 3 でGene Set データを選択:Gene Ontology を選択
-
Step 4 では Step 2 がヒト以外の場合オルソログの設定を選択
-
Step 5 で 各種パラメータを設定。Input Data Mode や Treatment/Control の別を特に注意。
-
コメントを入れると後々わかりやすい
-
パラメータを保存できます。
-
Submitボタンを押して 解析を実行
GSEAで利用可能なデータセット(Gene Set)
Species | Gene Set |
---|---|
9606 Homo sapiens | drug metabolism |
9606 Homo sapiens | hormone-disrupting chemicals |
9606 Homo sapiens | Gene Ontology (Biological Process) |
9606 Homo sapiens | Biosystems(Pathway) |
9606 Homo sapiens | GO-MoA GO (Biological Process) |
10090 Mus musculus | drug metabolism |
10090 Mus musculus | hormone-disrupting chemicals |
10090 Mus musculus | Gene Ontology (Biological Process) |
10090 Mus musculus | Biosystems(Pathway) |
10116 Rattus norvegicus | drug metabolism |
10116 Rattus norvegicus | hormone-disrupting chemicals |
10116 Rattus norvegicus | Gene Ontology (Biological Process) |
10116 Rattus norvegicus | Biosystems(Pathway) |
GSEA解析結果
Up regulate群と Down Regulate群 別に FDR q value の順でGO Termがリストされます。
Hit数、ES、NESなどの数値が確認できます。
GO Termをクリックすると関連遺伝子のリストと詳細が確認できます。
NES:正規化されたenrichment score、当該遺伝子セットを構成する遺伝子の発現変動の大きな遺伝子の偏りの程度を表し、符合は上昇か低下を示す。
FDR q value: 多重検定の補正を加味した偽陽性率を示し、0.25以下であれば発現変動遺伝子が有意に集積していると判定するが、低いほど信頼性は高くなる。
GO別 変動遺伝子の詳細
解析結果のオントロジー(Gene Set)をクリックすると起因する遺伝子リストが表示される。Leading edge=Yesの遺伝子が当該遺伝子セット内で 変動が大きくEnrichment scoreの算出に寄与した遺伝子。
処理結果の再ダウンロード
解析結果はJob History タブを選択し、該当するデータの”open”クリックする