生命科学に関するデーターベース検索入門    研究室外データーベース

 

1. 論文検索

   工事中

2. データー検索

A 遺伝子の塩基配列

世界的に有名なものにGenBank 米国国立バイオテクノロジー情報センター(National Center for Biotechnology Information, USA)があります。日本においては国立遺伝学研究所のDDBJが有名です。 遺伝子の塩基配列というとまずゲノムDNAの塩基配列があります。また、この遺伝子の塩基配列が写し取られて細胞内で遺伝子がコードするタンパク質が作られるために多数のmRNAが生じますがこのmRNAをDNAの塩基配列に置換しDNAの塩基配列として示したものがcDNAの塩基配列といわれるものです。 データーの記述としてGenomecDNAかの別がデーターの前に必ずにしめされています。 

   ゲノムDNAの場合はmRNAに転写される部分以外に前後の領域があり、さらに真核生物においてはイントロン(intron)と呼ばれる完成したmRNAになる前に切り取られてしまう領域があります。これに対し成熟した(完成した)mRNAになる部分はエキソン(exon)とよばれます。したがってgenome DNAの配列ではこれらflanking 領域やexonやintronの情報が細かくかかれています。

  cDNAの場合はRNA塩基のうちウラシル(U)のかわりにDNA塩基であるチミン(T)が配列中用いられる以外、mRNAそのものの構造と同じと考えてよろしいが、真核生物の場合は5'キャップとpolyA サイトがあり特に3' polyAの付加シグナルとpolyA' がつく3’末端まで配列データーがわかっている限りにおいて示されます。

 

  これらの核酸塩基配列のデーターを検索する方法として、文献検索などと同様に検索キーを用いる方法と探したい核酸塩基配列に対する相同性(類似性、ホモロジー(homology)) をもちる方法があります。 後者は、ホモロジー検索、ホモロジーサーチ、ブラストサーチなどといい、それを実行するプログラムは検索サイト上でFASTAやBLAST SEACH、BLAST SEQUENCESなどと表示されます。 このとき用いられる配列の入力形式がFASTA Formatとよばれるものです。この形式はたいていのデーターベースで以下に述べる種々の配列解析にも一般的に用いられるもので次に示したように”>"で始まるタイトル行と左詰で始まるデーター行で構成されています。データーの終わりに”//”が付加されることもあります。データー形式はASCIIで作成します(Unixのvi,PCの.. txt (notepad)など)。

>gi|1408061|dbj|D85882|SEQPYGHL3 Seriola quinqueradiata GHL3 mRNA for YGHL3, complete cds
AAAACAGAGAAAAACAGTACAAAGTGACCTTGATTATTAATCAATTATCAAAATAGTTGCTGCTTATTTT
TTCTATTGCTCAACTAATCCATTAATTGACTAATTGTTTCAGCTGTGCAATGTTATTTTCAGGTGTAGGA
ATTGCTAAATTTCTGATCCAGCAAATCATGCCTACACCGTCCTGACGTAGCAGATTATCTGAGCTTTGAA
TGTTGAACTCTCAATAACTTAAGCTGTTTCTTTTAACTCTGATTGTTGCTTATTTAGTCATAAATATATG
TATAATGTTCAAAAGAAATACTTCAGATTTGAAGCCAACTTTACAGGTGAGTGCTGTGAGTGCCTAAATA
TACTAATTAAAACATTATGAACAT

  DNA塩基配列からそれがコードするアミノ酸配列を推定したのが"Translation"として一文字アミノ酸表示により表示されます。ここでは通常、普遍的遺伝子コードUniversal Genetic Code原核生物から真核生物まですべての生物とウイルスに当てはまると考えられる遺伝コード)で塩基配列から計算されますが、まれに生物により異なる遺伝コードが部分的に使われることがあり、このばあいはそのコードが付記されます。いずれにしても遺伝子コードは3つの塩基の並び(トリプレット、triplet)より定義されます。

  この塩基配列からアミノ酸配列をUniversal Genetic Codeを用いて計算するのがORF-FINDER あるいはORFとよばれるプログラムです。

なお原核生物はBacteria または Archaea、 真核生物はEukaryotaeと生物名の一番頭のところに表示されます。--->細胞タイプについて

例:ヒト(human: Homo sapiens )の場合:
Eukaryota; Metazoa; Chordata; Vertebrata; Mammalia;
Eutheria; Primates; Catarrhini; Hominidae;
Homo 

エンドウ(pea: Pisum sativum) の場合: 
Eukaryotae
; mitochondrial eukaryotes; Viridiplantae;
Charophyta/Embryophyta group; Embryophyta; Magnoliophyta;
Magnoliopsida; Rutanae; Sapindales; Fabaceae; Papilionoideae;
Pisum

大腸菌Escherichia coli)の場合
Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia

 

B タンパク質のアミノ酸配列

データベースの構成と使用法は塩基配列が一文字アミノ酸表記によるアミノ酸配列に置き換わっただけでAの塩基配列データーベースと同様だと考えても差し支えありません。

 

C データベースにおける生物の分類のトップカテゴリー
(NCBI Taxon による)

Archaea
Eubacteria
Eukaryota
Viroids
Viruses
Other
Unclassified

詳しくは、MEDLINE Workbench のPubMedのNCBIホーム(NCBI home)を参照してください。

データーベースホーム  データーベース検索  MEDLINE Workbench

研究室外データーベース

ヒット カウンタ 981202