生命科学関連特許情報
| タイトル: | 公表特許公報(A)_治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法 |
| 出願番号: | 2006552019 |
| 年次: | 2007 |
| IPC分類: | G01N 33/68,G06F 19/00,C12N 15/09,C07K 14/00 |
この特許の詳細情報を見る(外部サイト)
特許情報キャッシュ
サシュデヴァ,ガウラヴクマール,カウシャルジャイン,プレティブラーマシャリ,サミール,クマールラマシャンドラン,スリニヴァサン JP 2007520718 公表特許公報(A) 20070726 2006552019 20050207 治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法 カウンシル オブ サイエンティフィック アンド インダストリアル リサーチ 505185709 小栗 昌平 100105647 本多 弘徳 100105474 市川 利光 100108589 高松 猛 100115107 サシュデヴァ,ガウラヴ クマール,カウシャル ジャイン,プレティ ブラーマシャリ,サミール,クマール ラマシャンドラン,スリニヴァサン IN 173/DEL/2004 20040206 US 60/589,227 20040720 G01N 33/68 20060101AFI20070629BHJP G06F 19/00 20060101ALI20070629BHJP C12N 15/09 20060101ALN20070629BHJP C07K 14/00 20060101ALN20070629BHJP JPG01N33/68G06F19/00 600C12N15/00 AC07K14/00 AP(BW,GH,GM,KE,LS,MW,MZ,NA,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,MD,RU,TJ,TM),EP(AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HU,IE,IS,IT,LT,LU,MC,NL,PL,PT,RO,SE,SI,SK,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AT,AU,AZ,BA,BB,BG,BR,BW,BY,BZ,CA,CH,CN,CO,CR,CU,CZ,DE,DK,DM,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,HR,HU,ID,IL,IN,IS,JP,KE,KG,KP,KR,KZ,LC,LK,LR,LS,LT,LU,LV,MA,MD,MG,MK,MN,MW,MX,MZ,NA,NI,NO,NZ,OM,PG,PH,PL,PT,RO,RU,SC,SD,SE,SG,SK,SL,SY,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC,VN,YU,ZA,ZM,ZW IN2005000037 20050207 WO2005076010 20050818 50 20061006 1.Linux 2G045 4B024 4H045 2G045CB21 2G045DA36 2G045JA01 4B024AA01 4B024AA11 4B024AA20 4B024BA80 4B024CA02 4B024HA11 4B024HA20 4H045AA10 4H045EA20 4H045EA50 アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法;この方法を実施するためのコンピュータシステムならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質 ゲノム配列プロジェクトが進行し、種々の生物から多数の推定タンパク質配列が作製された。感染性ヒト病原体から得たタンパク質の完全なセットに関する情報を入手できることによって、それらに対抗する新規分子アプローチを開発することができると予想される。微生物病原体による疾病がうまく定着し、続いて顕在化するのに必要なステップは、宿主細胞に接着する能力である。 微生物病原体は、うまく定着するために、宿主細胞表面受容体、膜または細胞外マトリックスへのその接着を媒介するアドヘシンとして知られるいくつかのタンパク質をコードしている。過去何10年の間の宿主−病原体相互作用のこの初期事象における研究によって、種々の病原微生物において多様なアドヘシンが明らかになった。現在では、アドヘシン生合成およびアドヘシン因子の調節に関する相当な情報が利用できる。細菌接着について最も理解されている機構の1つには、線毛(pili)または線毛(fimbriae)によって媒介される接着がある。いくつかのアフィムブリアル・アドヘシン(afimbrial adhesins)も報告されている。さらに、標的宿主受容体に関する限定された知識も得られている(フィンリー(Finlay),B.B.およびファルコー(Falkow),S 1997)。 ワクチンを開発するための新規アプローチは、定着プロセスを抑止するためにアドヘシンを標的とすることに焦点を当てている(ウィズマン(Wizemann)ら1999)。しかし、個々のアドヘシンの特定の役割は解明するのが困難であった。したがって、アドヘシンまたはアドヘシン様タンパク質の予測およびそれらの機能的特性決定は、宿主病原体相互作用の分子機構の解明を補助するだけでなく、新規ワクチン製剤の開発も補助する可能性があり、これは適した実験モデル系で試験することができる。 細菌接着について最も理解されている機構の1つには、線毛(pili)または線毛(fimbriae)によって媒介される接着がある。例えば、大腸菌(Escherichia coli)のFimHおよびPapGアドヘシン(マウラー(Maurer),L.、オーンドーフ(Orndorff),P.(1987)、ボック(Bock),L.ら(1985)。線毛(pili)群アドヘシンのその他の例としては、緑膿菌(Pseudomonas aeruginosa)、ナイセリア種、モラクセラ種、腸管病原性大腸菌およびコレラ菌(Vibrio cholerae)におけるIV型線毛(pili)が挙げられる(スペランディオ(Sperandio)Vら(1996)。いくつかのアフィムブリアル(afimbrial)アドヘシンとして、インフルエンザ菌(Haemophilus influenzae)のHMWタンパク質(バンシルフガード(van Schilfgaarde)2000)、繊維状血球凝集素、百日咳菌(Bordetella pertussis)のパータクチン(pertactin)(バシネット(Bassinet)ら2000)、ピロリ菌(H. pylori)のBabA(ユー(Yu)Jら2002)およびエルシニア・エンテロコリチカ(Yersinia enterocolitica)のYadAアドヘシン(ノイバウエル(Neubauer)ら2000)がある。腸管病原性大腸菌(EPEC)のインチミン受容体タンパク質(Tir)は、別の種類のアドヘシンである(イデ(Ide)Tら2003)。その他のクラスのアドヘシンとしては、クレイブセラ・ニューモニエ(Kleibsella pneumoniae)のMrkDタンパク質、インフルエンザ菌のHia(セントジェメ(St Geme)ら2000)、ミュータンス菌(Streptococcus mutans)のAg I/IIおよびストレプトコッカス・ゴルドニー(streptococcus gordonii)のSspA、SspB(エグランド(Egland)ら2001)、黄色ブドウ球菌(staphylococcus aureus)のFnbA、FnbBおよび化膿性連鎖球菌(Streptococcus pyogenes)のSfbI、タンパク質F、肺炎連鎖球菌(Streptococcus pneumoniae)のPsaA(デ(De)ら2003)が挙げられる。 ワクチンとして承認されているアドヘシンの公知の例としては、百日咳菌、百日咳の病原因子に対するFHAとパータクチンとを含有する無細胞百日咳ワクチンがある(ハルパリン(Halperin),Sら2003)。FimHでの免疫化は、病原性大腸菌に対する感染防御免疫について評価されており(ランガーマン(Langermann)Sら2000)、肺炎連鎖球菌では、PsaAが、肺炎球菌による疾病に対する可能性あるワクチン候補として調べられている(ラポラ(Rapola),Sら2003)。BabAアドヘシンでの免疫化結果は、ピロリ菌に対するワクチンの開発に向けて見込みを示した(プリンツ(Prinz),Cら2003)。合成ペプチド配列抗アドヘシンワクチンは、緑膿菌感染に対する保護について評価されている。 従来実験法によるアドヘシンおよびアドヘシン様タンパク質のスクリーニングは、骨が折れる、時間がかかる、費用がかかるものである。アドヘシンの同定を容易にするために、代替法としてホモロジー検索が用いられている。しかし、この手順はゲノム構成(ウォルフ(Wolf)ら2001)および代謝経路(ペレグリン−アルバレス(Peregrin-Alvarez)ら2003、リゾン(Rison)ら2002)の解析において有用であり、相同体が機能的に特性決定されていない場合または配列分散が高い場合には、機能予測を可能にすることが幾分か制限される。この技術に基づく、タンパク質の機能的役割の割り当ては、約60%の予測タンパク質配列についてしか可能でなかった(フレーザー(Fraser)ら2000)。したがって、本発明者らは、広い系統発生範囲に属する種においてアドヘシンおよびアドヘシン様タンパク質を同定するための、人工ニューラルネットワークの力と組み合わせた配列組成特性に基づく非ホモロジー法を開発する可能性を探索した。 20年前、ニシカワらは、組成分析に基づいてタンパク質を種々の群に分類するいくつかの初期の試みを実施した(ニシカワら1983)。 より最近では、従来のアラインメントツールでは類似する配列をはっきりと同定できないタンパク質配列を分析するためのソフトウェアPropSearchが開発された(ホボーム(Hobohm),Uおよびサンダー(Sander),C1995)。PropSearchはタンパク質配列の144の組成特性を用いて新規配列とデータベース中の配列との間の、可能性ある構造上のまたは機能上の関連を検出する。最近、タンパク質の組成属性を用い、人工ニューラルネットワークをトレーニングすることによって、細菌において分泌タンパク質を、および熱帯熱マラリア原虫(Plasmodium falciparum)においてアピコプラストターゲッティングタンパク質を予測するソフトウェアが開発された(ツエッゲ(Zuegge)ら2001)。 ツエッゲ(Zuegge)らは、20のアミノ酸組成特性を用いた。その目的は熱帯熱マラリア原虫においてアピコプラストターゲッティングタンパク質の特徴を抽出することであった。これは、宿主−病原体相互作用に関与するアドヘシンおよびアドヘシン様タンパク質に焦点を当てている本発明者らのソフトウェアSPAANとは異なっている。 ホボーム(Hobohm)およびサンダー(Sander)は、等電点およびアミノ酸およびジペプチド組成を含む144の組成特性を用いて、BLASTおよびFASTAのようなその他の配列アラインメントに基づくアプローチを用いる解析では手に負えないタンパク質の推定される機能的役割に関して仮説を立てた。ホボーム(Hobohm)およびサンダー(Sander)は、SPAANの焦点である、アドヘシンおよびアドヘシン様タンパク質の問題には具体的に対応していない。 ニシカワらは、最初はタンパク質を種々の機能群に分類しようとした。これは好奇心によって動かされた課題であったが、最終的に細胞外タンパク質と細胞内タンパク質を区別するソフトウェアの開発を導いた。この研究は、SPAANの焦点である、アドヘシンおよびアドヘシン様タンパク質の問題に対応するものではなかった。 したがって、前記の研究群の中には、本願の方法を想定できるものは1つもなかった。本願の発明的方法は、新規タンパク質および対応する遺伝子配列を提供する。 アドヘシンおよびアドヘシン様タンパク質は、宿主−病原体相互作用を媒介する。これは、微生物病原体による宿主の定着における第1のステップである。世界中の試みは、病原体由来のアドヘシンタンパク質を含むワクチン製剤を設計することに焦点を当てている。免疫化されると、宿主は、その病原体のアドヘシンに対して準備刺激を受けた免疫系を有することとなる。病原体が実際に遭遇されると、監視機構がこれらのアドヘシンを認識し、抗原−抗体相互作用によってそれらと結合し、補体媒介カスケードおよびその他の関連クリアランス機構によって病原体を中和する。この戦略は百日咳の場合にはうまく用いられてきており、肺炎、胃潰瘍および尿路感染症の場合には積極的に推し進められている。本発明の目的 本発明の主目的は、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法を提供することである。 本発明のもう1つの目的は、種々の病原体において、推定アドヘシンとしての独特の組成特徴を有するタンパク質をスクリーニングする法を提供することである。 本発明のさらにもう1つの目的は、予防用治療薬として有用である推定アドヘシンタンパク質をコードする遺伝子配列の使用を提供することである。 アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、ソフトウェアSPAANの5つの属性モジュール、(i)アミノ酸頻度、(ii)マルチプレット頻度、(iii)ジペプチド頻度、(iv)電荷組成および(v)疎水性組成を用いてタンパク質配列の配列に基づく属性をコンピュータで計算するステップと、コンピュータで計算された5つの属性の各々について、人工ニューラルネットワーク(ANN)をトレーニングするステップと、(Pad)≧0.51としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップというステップを含む前記方法;この方法を実施するためのコンピュータシステム;ならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質。 したがって、本発明は、アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、ソフトウェアSPAANの5つの属性モジュール、(i)アミノ酸頻度、(ii)マルチプレット頻度、(iii)ジペプチド頻度、(iv)電荷組成および(v)疎水性組成を用いてタンパク質配列の配列に基づく属性をコンピュータで計算するステップと、コンピュータで計算された5つの属性の各々について、人工ニューラルネットワーク(ANN)をトレーニングするステップと、(Pad)≧0.51としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップというステップを含む前記方法;この方法を実施するためのコンピュータシステム;ならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質に関する。 本発明の一実施形態では、本発明は、アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、 a.属性がソフトウェア、(i)アミノ酸頻度、(ii)マルチプレット頻度、(iii)ジペプチド頻度、(iv)電荷組成および(v)疎水性組成である、ニューラルネットワークソフトウェアの5つの属性モジュールを用いて、タンパク質配列の配列に基づく属性をコンピュータで計算するステップと、 b.コンピュータで計算された5つの属性の各々について、人工ニューラルネットワーク(ANN)をトレーニングするステップと、 c.(Pad)≧0.51としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップというステップを含む前記方法に関する。 本発明のもう1つの実施形態では、本発明はタンパク質配列が病原体、真核生物および多細胞生物から得られる方法に関する。 本発明の一実施形態では、本発明は、タンパク質配列が、大腸菌、インフルエンザ菌、ピロリ菌、肺炎マイコプラズマ、結核菌、発疹チフスリケッチア、ジンジバリス菌、シゲラフレックスネリ、ミュータンス菌、肺炎連鎖球菌、髄膜炎菌、化膿性連鎖球菌、梅毒トレポネーマおよび重症急性呼吸器症候群関連ヒトコロナウイルス(SARS)を含む生物の群から選択される病原体から得られる方法に関する。 本発明のさらにもう1つの実施形態では、本発明の方法は非ホモロジー法である。 本発明のさらにもう1つの実施形態では、本発明は配列の105の組成特性を用いる方法に関する。 本発明のさらにもう1つの実施形態では、本発明は少なくとも90%の感度を示す方法に関する。 本発明のさらにもう1つの実施形態では、本発明は100%の特異性を示す方法に関する。 本発明のさらにもう1つの実施形態では、本発明は遠縁の生物からアドヘシンを同定する方法に関する。 本発明のさらにもう1つの実施形態では、本発明は、入力層と、1つの隠れ層と出力層とからなる多層フィードフォワードトポロジーを有するニューラルネットワークに関する。 本発明のさらにもう1つの実施形態では、本発明は、各属性の入力データ点の数に等しい入力層のニューロンの数に関する。 本発明のさらにもう1つの実施形態では、本発明は5つのコンピュータで計算された属性から得た確率の加重線形和である「Pad」に関する。 本発明のさらにもう1つの実施形態では、本発明はタンパク質配列にアドヘシンである確率値を与える各トレーニングされたネットワークに関する。 本発明のさらにもう1つの実施形態では、本発明は請求項1に記載の方法を実施するためのコンピュータシステムであって、CPUによってアクセスされる記憶装置にすべて保存されている、人工ニューラルネットワークを用いて種々の属性に基づいて確率を与えるSPAANプログラムと、属性を評価するその他のインビルトプログラムとを実行する中央演算処理装置と、ユーザーの入力に応じて中央演算処理装置が前記のプログラムの画面を表示するディスプレイと、ユーザーインターフェース装置とを含む、前記システムに関する。 本発明のさらにもう1つの実施形態では、本発明は配列番号385〜658を有する、アドヘシンおよびアドヘシン様タンパク質をコードする、274種の注釈付き遺伝子のセットに関する。 本発明のさらにもう1つの実施形態では、本発明は配列番号659〜763を有する、アドヘシンおよびアドヘシン様タンパク質をコードする105種の仮定的遺伝子のセットに関する。 本発明のさらにもう1つの実施形態では、本発明は配列番号1〜279の、279種の注釈付きアドヘシンおよびアドヘシン様タンパク質のセットに関する。 本発明のさらにもう1つの実施形態では、本発明は配列番号280〜384の、105種の仮定的アドヘシンおよびアドヘシン様タンパク質のセットに関する。 本発明のもう1つの実施形態では、本発明は請求項1に記載のコンピュータを利用した方法に基づく完全接続多層フィードフォワード人工ニューラルネットワークであって、前記配列と接続している、入力層と、隠れ層と出力層とを含み、各ニューロンが二進数の数であり、アドヘシンまたはアドヘシン様タンパク質を同定するために次の層の各ニューロンと接続しており、プログラムステップが[a]タンパク質配列をFASTAフォーマットで入力するステップと、[b]A、C、D、HおよびMと名づけられ、属性Aがアミノ酸組成を表し、属性Cが電荷組成を表し、属性Dが20種のジペプチド[NG、RE、TN、NT、GT、TT、DE、ER、RR、RK、RI、AT、TS、IV、SG、GS、TG、GN、VIおよびHR]のジペプチド組成を表し、属性Hが疎水性組成を表し、属性Mがマルチプレットでのアミノ酸頻度を表す、5つのモジュールによって、ステップ[a]で得られた配列を処理して前記タンパク質配列の5種類の組成属性を数量化し、前記属性の各々の数値入力ベクトルをそれぞれ得、数値入力ベクトルの合計が105であるステップと、[c]ステップ[b]で得られた数値入力ベクトルを、入力ニューロン層によって処理して信号を得、ニューロンの数が各属性の数値入力ベクトルの数と等しいステップと、[d]ステップ[c]で得られた信号を、隠れ層によって処理してシナプス加重信号を得、隠れ層におけるニューロンの最適数を、各ネットワークの最高エポックでの誤差を最小化する実験によって個々に決定したステップと、[e]ステップ[d]で得られたシナプス加重信号を、ステップ[a]で入力された各タンパク質配列に、各ネットワークモジュールによってアドヘシンであるとして確率値を与える出力層に送るステップと、[f]ステップ[e]で得られた個々の確率を、Pad値で表され、ステップ[e]で得られた個々の確率と予測強度の尺度である相関関係の関連割合との加重平均である、アドヘシンであるタンパク質配列の最終確率を、コンピュータで計算するために用いるステップとを含む、完全接続多層フィードフォワード人工ニューラルネットワークに関する。 本発明のさらにもう1つの実施形態では、入力ニューロン層は105の組成特性に対応する全部で105のニューロンからなる。 本発明のさらにもう1つの実施形態では、隠れ層はアミノ酸頻度について30、マルチプレット頻度について28、ジペプチド頻度について28、電荷組成について30、疎水性組成について30として表されるニューロンからなる。 本発明のさらにもう1つの実施形態では、出力層は各タンパク質配列の確率値として出力値を送るニューロンからなる。 新規アドヘシンの同定およびそれらの特性決定は、宿主−病原体相互作用の研究にとっておよび新規ワクチン製剤を試験することにとって重要である。本発明者らは、タンパク質配列の105の組成特性を用いてアドヘシンタンパク質を同定できる、アルゴリズムSPAAN(ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測のためのソフトウェア)を開発するために人工ニューラルネットワークを用いた。SPAANにより、いくつかの細菌種および菌株から十分に特性決定されたアドヘシンを正しく予測できた。SPAANは、トレーニングセット中のタンパク質を含まない試験データセットにおいて89%の感度および100%の特異性を示した。ソフトウェアによって同定された推定アドヘシンは、可能性ある予防的治療薬の役目を果たし得る。 本発明は、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するための新規のコンピュータを利用した方法を提供する。さらに詳しくは、本発明は、これらのアドヘシンの候補遺伝子に関する。本発明はさらに、候補遺伝子を開発するための新規リード、および予防的アプローチとその機能で関連するそれらによってコードされるタンパク質を提供する。このコンピュータを利用した方法は、いくつかの配列属性の算出を含み、それに続く解析によって、種々の病原体におけるアドヘシンタンパク質の同定がもたらされる。したがって、本発明は病原生物におけるアドヘシンタンパク質の同定にとって有用である。種々のゲノムから得たアドヘシンタンパク質は、標的遺伝子破壊、マイクロアレイおよびプロテオミクスによる機能的特性決定のための候補のセットとなる。さらに、これらのタンパク質は、予防的治療薬の開発におけるさらなる試験のための候補のセットとなる。また、候補アドヘシンタンパク質をコードする遺伝子も提供される。 本方法は、骨の折れる、時間のかかる従来法と比較した、新規アドヘシンを同定するための用いる原理の新規性およびニューラルネットワークの力を提供する。本方法は、配列アラインメントの代わりにタンパク質の組成特性に基づいている。したがって、本方法は、広い系統発生範囲に属する細菌からアドヘシンおよびアドヘシン様タンパク質を同定する能力を有する。本方法からなされる予測は、独立した分析および実験によって容易に検証できる。本発明は、技能を持った人材と貴重な時間が必要であるという点で現在は高い投資が必要である、新規予防的治療薬の開発を加速する可能性がある。 本発明は治療可能性のある候補アドヘシンタンパク質を同定するためのコンピュータを利用した方法に関する。本発明は、種々の病原体のゲノムにおいてアドヘシンタンパク質を同定するための新規方法を特に記載する。こういったアドヘシンタンパク質は、予防的治療薬を開発するのに使用できる。 また、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法は、アミノ酸頻度、マルチプレット頻度、ジペプチド頻度、電荷組成および疎水性組成と名づけられる5つの配列属性下の105の組成特性の算出と、タンパク質のアドヘシンと非アドヘシンクラス間を区別するために、これらの特性を用いて人工ニューラルネットワーク(ANN、フィードフォワード誤差逆伝播)をトレーニングすることを含む。このコンピュータを利用した方法は、クエリータンパク質の105の組成属性を数量化し、Pad値(アドヘシンである確率)によってそれらをアドヘシンまたは非アドヘシンとして認定する。本発明は、病原生物においてアドヘシンおよびアドヘシン様タンパク質を同定するのに有用である。これらの新規に同定されたアドヘシンおよびアドヘシン様タンパク質は、新規予防的治療薬を開発するための候補のセットとなり、これらは適した実験モデル系において容易に試験できる。さらに、候補アドヘシンおよびアドヘシン様タンパク質をコードする遺伝子も提供される。 本発明は、予防的治療薬としてさらに評価するための、候補アドヘシンおよびアドヘシン様タンパク質のセットおよびそれらのコーディング遺伝子を提供する。本発明の方法は、機能的ドメインに分類された配列パターンの代わりにタンパク質配列属性の解析に基づいている。本方法は配列関係にはあまり依しておらず、したがって、遠縁の生物からアドヘシンを同定する潜在的な力を提供する。本発明は、人工ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測を含む、コンピュータを利用した方法を提供する。アドヘシンと呼ばれるタンパク質は、種々の病原体において高い確率(Pad≧0.51)で予測されることがわかった。いくつかのアドヘシン配列は、抗原性であるか、病原性に関与するタンパク質と同一または相同であることがわかった。このアプローチによって、タンパク質を同定でき、種々の病原生物によって引き起こされる疾病を根絶するための新規ワクチン製剤の開発におけるさらなる試験のためのショートリストに載せることができた。(表の説明) 表1:SPAANによって与えられる出力ファイルフォーマット。 表2:生物名、受託番号、塩基対の数、公開日およびタンパク質の全数。 表3:SPAANを用いた、種々の細菌病原体からの十分に特性決定されたアドヘシンの予測。 表4:いくつかの選択した病原生物のゲノムスキャンでのSPAANによってなされた予測の分析。 表5:表2に列挙されたゲノムにおいてSPAANによって予測された新規推定アドヘシンのGI番号および遺伝子ID。 表6:表2に列挙されたゲノムにおいてSPAANによって推定アドヘシンとして予測された仮定的タンパク質のGI番号および遺伝子ID。 表7:細菌において見出された198種のアドヘシンの一覧。 ソフトウェアプログラムはC言語で書かれており、Red Hat Linux 8.0オペレーティングシステムで作動している。コンピュータプログラムは、FastAフォーマットの入力タンパク質配列を受け入れ、表形式出力を生じる。出力表には、5つのモジュールの各々の確率出力、これら5つのモジュールの加重平均確率(Pad)および入力配列ファイルに記載されているタンパク質の機能を記載する、各タンパク質につき1つの行が含まれる。このソフトウェアはSPAAN(ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測のためのソフトウェア)と呼ばれ、ソフトウェア著作権が申請されている。このソフトウェアは複数のモジュールを有するが、これらのモジュールの作動は統合されており自動化されている。ユーザーは1つのコマンドを走らせる必要があるだけである。 AAcompo.c: 入力:fastaフォーマットのタンパク質配列を含むファイル。 出力:1行に各タンパク質について20種のAAすべての頻度を含むファイル。 charge.c: 入力:fastaフォーマットのタンパク質配列を含むファイル。 出力:帯電したアミノ酸(R、K、EおよびD)の頻度および帯電したアミノ酸の位置のモーメント(18次まで)を含むファイル。 hdr.c: 入力:fastaフォーマットのタンパク質配列を含むファイル。 出力:疎水性および5次までの位置のモーメントに基づいて形成されるアミノ酸の5つの群の頻度を含むファイル。 multiplets.c: 入力:fastaフォーマットのタンパク質配列を含むファイル。 出力:20種のアミノ酸各々のマルチプレットの割合を含むファイル。 querydipep.c: 入力:fastaフォーマットのタンパク質配列を含むファイル1。 ジペプチド分析における有意なジペプチドの一覧を含むファイル2。 出力:入力ファイル1中の各タンパク質についての、入力ファイル2に列挙されたジペプチドの頻度を含むファイル。 train.c: 入力:以下の明細事項を含むファイル− 1.入力および出力パラメータ数 2.隠れ層におけるノード数 3.トレーニング、検証および試験データファイルの名称。 4.学習速度、モーメントの係数。 5.トレーニングのサイクルの最大数。 出力:出力は以下の通りである。 1.試験データセットについてトレーニングされたNNの出力。 2.トレーニングされたNNにおける重み接続の値。 3.トレーニングに関するいくつかのその他の情報。 recognize.c: 入力:以下の明細事項を含むファイル。 1.入力および出力パラメータ数。 2.隠れ層におけるノード数。 3.クエリー入力ファイルの名称。 4.トレーニングされたNNの重み接続の値を含むファイルの名称。 5.出力ファイルの名称。 出力:トレーニングされたNNによって算出されたクエリー入力についての出力。 standard.c: 入力:fastaフォーマットのタンパク質配列を含むファイル。 出力:配列内にあるすべての改行文字が除去された、fastaフォーマットのタンパク質配列を含むファイル。 filter.c: 入力:fastaフォーマットのタンパク質配列を含むファイル。 出力:長さの短いもの(<50AA)および20種の公知のアミノ酸以外の何らかのアミノ酸を含むものを除く、入力から得たタンパク質配列を含むファイル。5つの属性:(アミノ酸頻度) アミノ酸頻度fi=(配列中のi番目のアミノ酸の総数)/l;i,=1…20、lはタンパク質の長さである。(マルチプレット頻度) マルチプレットはホモポリマーの広がり(X)n(ここで、Xは20種のアミノ酸のうちのいずれかであり、nは整数>2である)として定義する。すべてのマルチプレットを同定した後、マルチプレットにおけるアミノ酸の頻度を以下のようにコンピュータで計算した。 fi(m)=(マルチプレットとして出現するi番目のアミノ酸の総数)/l(ジペプチド頻度) ジペプチド(i,j)fijの頻度=(ij番目のジペプチドの総数)/(全ジペプチド総数);i、jは1〜20で変動する。 タンパク質中のジペプチドリピートは、フィブリノゲンと結合する、黄色ブドウ球菌細胞表面に存在するクランピング因子の機能発現にとって重要であることがわかっている(ハードフォード(Hartford)ら1999)。したがって、本発明者らは、ジペプチド頻度モジュールを含めた。ジペプチドの総数は400である。ニューラルネットワークの最適トレーニングには、オーバーフィッティングをさけるために、重み接続の総数に対する入力ベクトルの総数の割合が約2でなくてはならない(アンドレア(Andrea)ら)。したがって、本発明者らは、t検定を用いて、アドヘシンデータセット(469種のタンパク質、データベース構成参照)中のその頻度が、非アドヘシンデータセット(703種のタンパク質)におけるものと有意に異なるジペプチドを同定した。上位20種(t検定のp値の減少する順序に並べた場合の)のジペプチドの頻度をニューラルネットワークに入力した。これらのジペプチドは(一文字IUPAC−IUBコードを用いて)NG、RE、TN、NT、GT、TT、DE、ER、RR、RK、RI、AT、TS、IV、SG、GS、TG、GN、VIおよびHRであった。第2の層に20種のジペプチドと28種のニューロンについて頻度を入力すると、重み接続の総数は588であり、これはオーバーフィッティングを避けるという基準に一致している。(電荷組成) fc=(帯電アミノ酸の総数)/lで示される、帯電アミノ酸(pH7.2での側鎖のイオン化特性を考慮してR、K、EおよびD)の入力頻度。さらに、所与のタンパク質配列における帯電アミノ酸の分布の特性に関する情報が、帯電アミノ酸の出現位置のモーメントをコンピュータで計算することによって提供された。モーメントにより、歪度および尖度(ピークの鋭さ)などの分布パターンが特性決定されるので、本発明者らはそれらを用いて配列中の帯電している残基の分布パターンを表した。 所与の次数、例えば「i」のモーメントをコンピュータで計算するための一般的な表現は次のとおりである。 Mr=帯電アミノ酸の位置のr次モーメント =Σ{(Xi−Xm)γ/N}{式中、Xm=帯電アミノ酸のすべての位置の平均 Xi=i番目の帯電アミノ酸の位置 N=配列中の帯電アミノ酸の数 帯電アミノ酸の頻度およびタンパク質の長さに加え、モーメント2次〜19次を用いてANNをトレーニングし、全20の入力とした。19次という上限は、アドヘシンおよび非アドヘシンの小さなデータセットに対する感度および特異性の評価に基づいて設定した。19よりも大きな次数のモーメントは、性能の改良に有用ではなかった。(疎水性組成) 所与のタンパク質配列を、ブレンデル(Brendel)ら(43)のアミノ酸の疎水性スコアを用いてデジタル変換した。アミノ酸の5群のスコア:(K、E、D、Rに対して−8)、(S、T、N、Qに対して−4)、(P、Hに対して−2)、(A、G、Y、C、Wに対して+1)、(L、V、I、F、Mに対して+2)。 群の各々に対して以下の入力を与えた(a)fi=(i番目の群の総数)/(タンパク質中の全総数);iは1〜5で変動する。(b)mij=i番目の群中のアミノ酸の位置のj次モーメント;jは2〜5で変動する。 タンパク質の疎水性組成を表す、全部で25入力をニューラルネットワークに入力した。モーメントを用いる論拠は、電荷組成入力に関する項に記載したものと同様であった。 所与のタンパク質配列の全部で105の組成特性を一緒にして用い、それらのアドヘシン特徴を予測した。 ソフトウェアPropSearchは、タンパク質配列の144の組成特性を用いて、新規配列とデータベース中の配列の間の、可能性ある構造上のまたは機能上の関連を検出する(ホボーム(Hobohm)およびサンダー(Sander)1995)。このアプローチではタンパク質配列相違点(または距離)を、シングレット(singlet)およびダブレット(doublet)アミノ酸組成、分子量、等電点などの組成特性の相違の加重和として定義する(タンパク質特性検索またはPropSearch)。タンパク質の組成特性はまた、細菌において分泌タンパク質を、および熱帯熱マラリア原虫においてアピコプラストターゲッティングタンパク質を予測するために用いられている(ツエッゲ(Zuegge)ら2001)。本明細書で用いた特性は、統計的手法、主成分分析、自己組織化マップおよび教師ありニューラルネットワークである。SPAANでは、本発明者らは、5つのモジュール、すなわち、アミノ酸頻度、マルチプレット頻度、ジペプチド頻度、電荷組成、疎水性組成において105の組成特性を用いた。SPAANに用いた全部で105の特性は、アミノ酸頻度について20、マルチプレット頻度について20、ジペプチド頻度について20(t検定に基づいて、上位20種の有意なジペプチドを用いる)、電荷組成について20(帯電アミノ酸(R、K、EおよびD)の頻度および2次〜19次のモーメント)および疎水性組成について25(アミノ酸を5群に分類した(K、E、D、Rに対して−8)、(S、T、N、Qに対して−4)、(P、Hに対して−2)、(A、G、Y、C、Wに対して+1)、(L、V、I、F、Mに対して+2))。全部で25の入力は以下からなるものとした:各群の頻度、2〜5次の各群におけるアミノ酸の位置のモーメント。(ネットワーク) フィードフォワード誤差逆伝播ニューラルネットワークを用いた。プログラムはチャールズWアンダーソン(Charles W. Anderson)、コロラド州立大学、コンピュータサイエンス学部、フォートコリンズ、CO 80523、anderson@cs.colostate.eduから提供されたものである。(ニューラルネットワークアーキテクチャ) 本明細書において用いたニューラルネットワークは多層フィードフォワードトポロジーを有している。入力層と、1つの隠れ層と出力層とからなる。これは、各ニューロンiが次の層の各ユニットjと結合している「相互結合型」ニューラルネットワークである(図1)。各結合の重みはwijで表されている。入力層中の各ニューロンの状態Iiは、入力データから直接割り当てられ、他方隠れ層ニューロンの状態はシグモイド関数によってコンピュータで計算される、hj=1/{1+exp−(wj0+ΣwijIi)}、{式中、wj0はバイアス重みである}。 逆伝播アルゴリズムを用いて、コンピュータで計算した出力と望ましい出力の間の相違を最小化した。1万サイクル(エポック)の反復が実施される。その後、誤差が最小である最良のエポックを同定した。この時点で、トレーニングセット中の所与の入力に対して、およその目標値がネットワークから得られる。 ネットワークを各属性に対して最適にトレーニングした。したがって、5つのネットワークが調製された。概念図(図1)は採用した手順を示す。入力層中のニューロンの数は、各属性の入力データ点の数と等しいものとした(例えば、アミノ酸組成属性の20の数値入力ベクトルに対して20のニューロン)。隠れ層中のニューロンの最適数は、各ネットワークの最良のエポックで個々に誤差を最小化する実験によって求めた。重み接続の総数の上限は、これまでに示唆されたようにオーバーフィッティングを避けるために入力ベクトルの総数の半数に設定した(アンドレア(Andrea)ら)。 個々の組成属性をコンピュータで計算するためのコンピュータプログラムはCで書かれており、Red Hat Linuxバージョン7.3または8.0下のPCで実施した。ネットワークはトレーニングセットでトレーニングし、誤差をチェックし、検証セットを用いて逆伝播によって最適化する。検証セットは、トレーニングセットとは異なるものとした。十分に注釈の付いたアドヘシンの数は多くはなかったので、本発明者らは「検証セット」自体を、性能の予備的評価のための試験セットとして用い、次の項に記載した加重平均確率(Pad値)をコンピュータで計算するための相関割合を得た。トレーニングセットには367種のアドヘシンと580種の非アドヘシンが含まれていた。検証セットには102種のアドヘシンと123種の非アドヘシンが含まれていた。アドヘシンには数字「1」を与え、非アドヘシンには数字「0」を与えた。 予測の際、ネットワークには、トレーニングセットの一部ではなかった配列から新規データが入力される。各ネットワークが、所与の配列にアドヘシンである確率値を割り当てる。最終確率は、次の項に記載咲いたようにコンピュータで計算される。(アドヘシンである確率、Pad値) クエリータンパク質は、各属性についてトレーニングされたネットワークによってモジュール式に処理される。したがって、5つの確率出力が得られる。5つのモジュールから得た確率の加重線形和である最終予測は、以下の式を用いてコンピュータで計算した:Pi=iモジュールから得た確率fci=トレーニングされたニューラルネットワークのiモジュールの相関割合、{ここで、i=A(アミノ酸頻度)、C(電荷組成)、D(ジペプチド頻度)、H(疎水性組成)またはM(マルチプレット頻度)}。 相関割合fciは、予備的評価に用いた試験セットでトレーニングされたネットワークによって正しく予測された全入力の割合を表す(Pi、アドヘシン>0.5およびPi、非アドヘシン<0.5)(チャールズ・アンダーソン)。(ニューラルネットワーク) フィードフォワード誤差逆伝播ニューラルネットワークを用いた。プログラムは著者、チャールズWアンダーソン(Charles W. Anderson) コロラド州立大学、コンピュータサイエンス学部、フォートコリンズ、CO 80523、anderson@cs.colostate.eduからの許可を受けてウェブサイトからダウンロードした。(統計分析) すべての統計学的手法は、マイクロソフト エクセル(Microsoft Excel)(マイクロソフト社、米国(Microsoft Corporation Inc. USA))を用いて実施した。(配列解析) ホモロジー解析は、CLUSTAL W(トンプソン(Thompson)ら1994)、BLAST(アルトシュル(Altschul)ら1990)、CDD(保存ドメインデータベース)検索(マーシュラー−バウアー(Marchler-Bauer)ら2002)を用いて実施した。 微生物病原体の全ゲノム配列は、診断薬およびワクチンなどの臨床応用の開発のための新しい機会を提示する。本発明は、候補遺伝子の開発のための新規リード、および予防的治療薬とその機能で関連するそれらによってコードされるタンパク質を提供する。 両クラス、すなわち、アドヘシンおよび非アドヘシンのタンパク質配列を、既存のデータベース(米国国立生物工学情報センター(National Centre for Biotechnology Information)(NCBI)、米国)からダウンロードした。5つの配列属性、すなわち、アミノ酸組成、マルチプレット組成、ジペプチド組成、電荷組成および疎水性組成の下、全部で105の組成特性を、C言語で書かれたコンピュータプログラムによってコンピュータで計算した。両データベース中のすべてのタンパク質について属性をコンピュータで計算した。次いで、配列に基づいた属性を用い、タンパク質属性の各々について人工ニューラルネットワークをトレーニングした。アドヘシンには数字「1」を与え、非アドヘシンには数字「0」を与えた。最後に、各トレーニングした人工ニューラルネットワークを用いて、病原性感染症に対する予防的治療薬の開発のために有用であると予想され得る、可能性あるアドヘシンを同定した。したがって、本発明は、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法を提供し、これは、 1.タンパク質配列に関する入手可能な公開情報から得たアドヘシンおよび非アドヘシンタンパク質の2つの包括的データセットを比較することと、 2.入手可能な公開タンパク質データセット中のタンパク質配列の配列に基づいた属性を、ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測のための特別に開発されたソフトウェア(SPAAN)を用いてコンピュータによって算出することと、 3.選択された属性について人工ニューラルネットワーク(ANN)をトレーニングすることと、 4.アドヘシンに適した確率値、「Pad」をクエリータンパク質に割り当て、SPAANで実施される、トレーニングされた人工ニューラルネットワークを用いてクエリータンパク質においてアドヘシン様特性を同定することと、 5.病原体ゲノムにおいて生化学的に特性決定されている既知のタンパク質配列と比較することによって、タンパク質配列を治療可能性としてコンピュータを利用して検証することとを含む。 本発明の一実施形態では、タンパク質配列データは生物、詳しくは、それだけには限らないが、大腸菌、インフルエンザ菌、ピロリ菌、肺炎マイコプラズマ、結核菌、発疹チフスリケッチア、ジンジバリス菌、シゲラフレックスネリ、ミュータンス菌、肺炎連鎖球菌、髄膜炎菌、化膿性連鎖球菌、梅毒トレポネーマ、重症急性呼吸器症候群関連コロナウイルスなどの生物から得ることができる。 本発明のもう1つの実施形態では、治療可能性のあるタンパク質を同定するために用いた種々の配列に基づいた属性は、アミノ酸組成、電荷組成、疎水性組成、マルチプレット頻度およびジペプチド頻度を含む。 一実施形態では、非相同アドヘシンタンパク質配列を、選択された病原体における治療に応用される既知の配列のものと比較できる。 本発明の一実施形態では、アドヘシンまたはアドヘシン様タンパク質の配列は、本発明の方法によって同定された、表5および6に列挙された配列番号の配列を含む。 本発明のもう1つの実施形態では、本コンピュータシステムは、CPUによってアクセスされる記憶装置にすべて保存されている、人工ニューラルネットワークを用いて種々の属性に基づいて確率を与えるSPAANプログラムと、属性を評価するその他のインビルトプログラムとを実行する中央演算処理装置と、ユーザーの入力に応じて中央演算処理装置が前記のプログラムの画面を表示するディスプレイと、ユーザーインターフェース装置とを含む。 本発明の一実施形態では、その名称、系統、NCBIデータベースにおける受託番号およびその他の詳細などの生物の詳細は表2に示されている: 本発明を以下の実施例を用いてさらに説明するが、これらは例示であり、いかなる方法によっても本発明の範囲を制限すると解釈されるべきではない。SPAANの作動: 本プログラムの目的は、タンパク質配列の種々の配列に基づいた属性をコンピュータによって算出することである。本プログラムは以下のように働く: http://www.ncbi.nlm.nih.govから得られる、インターネットからダウンロードしたFASTAフォーマットのファイルを、名称<organism_name>.faaで保存し、これをCプログラムによって標準フォーマットに変換し、タンパク質配列の5つの異なる属性(5つのモジュールすべてでは全部で105の組成特性)をコンピュータによって計算する別のセットのCプログラムに入力として回した。 コンピュータによって計算された特性を、5つの異なるニューラルネットワークに入力として入力した。各トレーニングされたネットワークが、クエリータンパク質にアドヘシンである確率値を割り当てる。最終確率(Pad)は、これら5つ個々の確率の加重平均として算出した。重みは、5つのモジュール各々の試験ランの際の正しい予測の相関値から求めた。 入力/出力フォーマット: ダウンロードファイルおよびそのフォーマット:<organism_name>.faa:注釈およびタンパク質配列を保存しているファイル。入力ファイルフォーマット:FASTA“>gi.vertline.”<annotation>例えば、>gi.vertline.2314605.vertline.gb.vertline.AAD08472.vertline.ヒスチジンおよびグルタミンが豊富なタンパク質MAHHEQQQQQQANSQHHHHHHHAHHHHYYGGEHHHHNAQQHAEQQAEQQAQQQQQQQAHQQQQQKAQQQNQQY>gi.vertline.3261822.vertline.gn1.vertline.PID.vertline.e328405 PE_PGRSMIGDGANGGPGQPGGPGGLLYGNGGHGGAGAAGQDRGAGNSAGLIGNGGAGGAGGNGGIGGAGAPGGLGGDGGKGGFADEFTGGFAQGGRGGFGGNGNTGASGGMGGAGGAGGAGGAGGLLIGDGGAGGAGGIGGAGGVGGGGGAGGTGGGGVASAFGGGNAFGGRGGDGGDGGDGGTGGAGGARGAGGAGGAGGWLSGHSGAHGAMGSGGEGGAGGGGGARGEAGAGGGTSTGTNPGKAGAPGTQGDSGDPGPPG>gi.vertline.... 表中、PA、PC、PD、PH、PMは5つのニューラルネットワークの出力である。(生物および配列数) SPAANで実施される多層型フィードフォワードニューラルネットワークアーキテクチャ(図1)。FASTAフォーマットの所与のタンパク質配列をまず、5つのモジュールA、C、D、HおよびMで処理し、5種の組成属性を数量化する。A:アミノ酸組成、C:電荷組成、D:20種のジペプチド(NG、RE、TN、NT、GT、TT、DE、ER、RR、RK、RI、AT、TS、IV、SG、GS、TG、GN、VI、HR)のジペプチド組成、H:疎水性組成、M:マルチプレットとしてのアミノ酸頻度。示される配列は、大腸菌のFimH前駆体(gi 5524634)の一部である。続いて、これらの数値データを入力ニューロン層に入力する。矢印の方向はデータの流れを示す。入力層中の選択されたニューロンの数は、各モジュールの数値入力ベクトルの数と等しいものとした。ネットワークは、逆伝播によって検証セットに基づいて検出の誤差を最小化することによって場合によってトレーニングした。詳細は本方法に記載されている。各ネットワークモジュールは、対応する属性に基づいて、タンパク質のアドヘシンである確率値を割り当てる。タンパク質配列のアドヘシンである最終確率はPad値、個々の確率と予測強度の尺度である相関の関連割合の加重平均である。 トレーニングセットの一部ではない37種のアドヘシンおよび37種の非アドヘシンからなる試験セットを用いて評価されたSPAANの性能。所与の閾値を上回るPad値を有する(X軸にプロットされる)すべてのタンパク質のマシュー(Matthew)の相関係数(Y軸にプロットされるMcc)(図2)。マシュー相関は以下のように定義される:{式中、TP=真の陽性、TN=真の陰性、FP=偽陽性、FN=偽陰性。}ここで、TPはアドヘシンであり、TNは非アドヘシンである。一般に、アドヘシンは高いPad値を有するのに対し、非アドヘシンは低いPad値を有する。したがって、所与の閾値を上回るPad値を有する既知のアドヘシンは真の陽性であるのに対し、所与の閾値を下回るPad値を有する既知の非アドヘシンは真の陰性である。感度、Snは(TP/(TP+FN))で与えられ、特異性、Spは(TP/(TP+FP))で与えられる。偽陰性とは既知のアドヘシンが、選択された閾値よりも低いPad値を有する場合である。同様に、選択された閾値よりも高いPad値を有する既知の非アドヘシンは偽陽性ととった。理論上の二次の多項式曲線(破線)を、カール−ピアソン相関係数R2=0.9799を用いて観察された曲線(実線)にフィッティングした。理論上の曲線の最大点(一次微分係数がゼロになり、二次微分係数が負である)を参照(垂直の点線)として選択し、観察された曲線で最大Mcc=0.94(矢印で示される)であると同定した。対応するPad値閾値は0.51であった。このPad値閾値で、SnおよびSpはそれぞれ0.89および1.0であった。ここで留意すべきは、理論上達成可能な限界は1.0であるのに比べ、アドヘシンによって達成される最高のPad値は0.939であったので、MccはX軸までは落ちないということである。(種々の細菌病原体に由来する周知のアドヘシンでのSPAANの評価) SPAANの、Pad≧0.51でアドヘシンと非アドヘシンを区別する能力(図3−a)。 アドヘシンおよび非アドヘシンの双方において、SPAANの非ホモロジー特徴によって評価する(図3bおよび3c)。 図3(a〜c)。SPAANは非ホモロジーベースのソフトウェアである。全部で130種のアドヘシンおよび130種の非アドヘシンを分析し、SPAANの予測力が配列関係によって影響を受け得るかどうかを評価した。(a)種々のPad値範囲におけるタンパク質数のヒストグラムプロットが示されている。斜線をつけた棒は、アドヘシンを表すのに対し、白抜きの棒は非アドヘシンを表す。SPAANのアドヘシンと非アドヘシンを2つの別個のまとまりのある群に分ける能力には留意しなくてはならない。(b)アドヘシンの中でのペアワイズ配列関係をCLUSTAL Wを用いて求め、X軸にプロットした。スコアが高いほどペアが類似していることを示す。同じタンパク質ペアにおけるPad値の対応する相違はY軸にプロットした。図中の各点は、1つのペアを表す。矢印は、高い類似性にもかかわらずΔPad値が高いFimHファミリーのタンパク質ペアを示す。FimHタンパク質の1種(gi:5524636)は極めて低いPad値を有していたので、この偽陰性タンパク質を含むすべてのペアは、高いΔPad値を示す。このタンパク質(gi:5524636)は、同ファミリーのその他のメンバーと比較してかなり短い長さのものである。(c)非アドヘシンのプロット。データは、明確な検討のために4象限形式でプロットされている。CLUSTAL Wスコア<20であるタンパク質ペアの中では、大部分(アドヘシンでは82%および非アドヘシンでは86%)がΔPad<0.2である。これらのデータは、SPAANの非ホモロジー特性を支持するものである。 SPAANによる病原体のゲノムスキャンによって、周知のアドヘシンおよび新規アドヘシンおよびアドヘシン様タンパク質が同定される。利点: 1.本方法は、創薬および予防治療薬において極めて重要である、推定アドヘシンを発見するのに役立つ 2.本方法は、その他のタンパク質を用いるクエリータンパク質の相同性とは無関係であるので、独特なタンパク質であっても接着性質を予測するのにおいて有用である。 3.本方法は使用するのが容易である。出力を算出するには、入力としてアミノ酸配列が必要なだけである。その接着性質についての情報を得るためにその他の情報は必要でない。以下を参照できる1.アンドレア(Andrea)、T.A.、カライエ(Kalayeh),H.(1991)アプリケーションズ・オブ・ニューラルネットワーク・イン・クアンティタティブ・ストラクチャー−アクティビティー・リレーションシップス・オブ・ジヒドロホレート・レダクターゼ・インヒビターズ(Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors)ジャーナル・オブ・メディシナル・ケミストリー(Journal of Medicinal Chemistry)34、2824〜2836頁。2.アルトシュル(Altschul)SF、ギッシュ(Gish)W、ミラー(Miller)W、マイアズ(Myers)EW、リップマン(Lipman)DJ。(1990)ベーシック・ローカル・アラインメント・サーチ・ツール(Basic local alignment search tool)。ジャーナル・オブ・モレキュラー・バイオロジー(Journal of Molecular Biology)215(3)、403〜410頁。3.バシネット(Bassinet)L、ゲイラード(Gueirard)P、メートル(Maitre)B、ハウセット(Housset)B、グーノン(Gounon)P、ギソ(Guiso)N、(2000)ロール・オブ・アドヘシン・アンド・トキシンズ・イン・インベーション・オブ・ヒューマン・トラチェアル・エピセリアル・セルズ・バイ・ボルデテラ・ペルツシス。(Role of adhesins and toxins in invasion of human tracheal epithelial cells by Bordetella pertussis.)インフェクション・アンド・イミュニティー(Infection and Immunity)68(4)、1934〜1941頁。4.ボック(Bock),Kら(1985)。スペシフィシティー・オブ・バイディング・オブ・ウロパソゲニック・エシェリキア・コリ・トゥー・Gal・アルファ・1−4Gal・コンテイニング・グリコスフィンゴリピッヅ(Specificit of a strain of a strain of uropathogenic Escherichia coli to Gal alpha 1----4Gal-containing glycosphingolipids)。ジャーナル・オブ・バイオロジカル・ケミストリー(Journal of Biological Chemistry)260、8545〜8551頁。5.ブレンデル(Brendel),V、ブッチャー(Bucher),P、ヌルバクシュ(Nourbakhsh),I.R.、エドウィン・ブレイズデル(Edwin Blaisdell),B.およびカーリン(Karlin),S.(1992)メソッヅ・アンド・アルゴリズムス・フォー・スタティスティカル・アナリシス・オブ・プロテイン・シークエンセズ(Methods and algorithms for statistical analysis of protein sequences)。プロシーディングス・オブ・ナショナル・アカデミック・サイエンス・オブ・ユーエスエー(Proceedings of National Academic Science of USA)89、2002〜2006頁。6.ブレナン(Brennan),M.J.、デログ(Delogu),G.、チェン(Chen),Y、バルダロフ(Bardarov),S.、クリアコフ(Kriakov),J.、アラビ(Alavi),M.、ジェイコブス(Jacobs),W.R.、(2001)。7.エビデンス・ザット・マイコバクテリアル・PE_PGRS プロテインズ・アー・セル・サーフェス・コンスティチューエンツ・ザット・インフルエンス・インテラクションズ・ウィズ・アザー・セルズ(Evidence that Mycobacterial PE_PGRS proteins are cell surface constituents that influence interactions with other cells)。インフェクション・アンド・イミュニティー(Infection and Immunity)69、7326〜7333頁。8.デ(De)BK、ウールフィット(Woolfitt)AR、バール(Barr)JR、ダンシュバー(Daneshvar)MI、サンプソン(Sampson)JS、アデス(Ades)EW、カーロン(Carlone)GM、(2003)アナリシス・オブ・レコンビナント・アシレイテッド・ニューモコッカル・サーフェス・アドヘシン・エー・オブ・ストレプトコッカス・ニューモニエ・バイ・マス・スペクトロメトリー(Analysis of recombinant acylated pneumococcal surface adhesin A of Streptococcus pneumoniae by mass spectrometry)。アーカイブス・オブ・バイオケミストリー・アンド・バイオフィジックス(Archives Biochemistry and Biophysics)15、419(2)、147〜157頁。9.エグランド(Egland)PG、デュー(Du)LD、コレンブランダー(Kolenbrander)PE、(2001)アイデンティフィケーション・オブ・インデペンデント・ストレプトコッカス・ゴルドニー・SspA・アンド・SspB・ファンクションズ・イン・コアグリゲーション・ウィズ・アクチノマイセス・ネスルンジー(Identification of independent Streptococcusgordonii SspA and SspB functions in coaggregation with Actinomyces naeslundii)。インフェクション・アンド・イミュニティー(Infection and Immunity)69(12)、7512〜7516頁。10.フィンレイ(Finlay)、B.B.およびファルコウ(Falkow),S.(1997)コモン・シームズ・イン・マイクロバイアル・パソゲニシティー・リビジッテド(Common themes in microbial pathogenicity revisited)。マイクロバイオロジー・アンド・モレキュラー・バイオロジー・レビューズ(Microbiology and Molecular Biology Reviews)61、136〜169頁11.フレーザー(Fraser),C.M.、エイサン(Eisen),J.、フライシュマン(Fleischmann),R.D.、ケッチャム(Ketchum),K.A.、ピータスン(Peterson),S.(2000)コンパラティブ・ゲノニックス・アンド・アンダースタンディング・オブ・マイクロバイアル・バイオロジー(Comparative genomics and understanding of microbial biology)エマージング・インフェクショアウス・ディジーゼス(Emerging Infectious Diseases)6、505〜6512頁12.ハルパリン(Halperin),S.A.、シェイフェレ(Scheifele),D.、ミルス(Mills),E.ガスパリーニ(Guasparini),R.、ハンフリース(Humphreys),G.、バレット(Barreto),L.、スミス(Smith),B.(2003)ネイチャー、、エボリューション、アンド・アプレイザル・オブ・アドバース・イベンツ・アンド・アンチボディー・レスポンス・アソシエイテッド・ウィズ・フィフス・コンセキューティブ・ドーズ・オブ・ア・ファイブ・コンポーネント・アセルラー・ペーツシス−ベースド・コンビネーション・ワクチン(Nature, evolution, and appraisal of adverse events and antibodyresponse associated with the fifth consecutive dose of a five-component acellular pertussis-based combination vaccine)ワクチン(Vaccine)21、2298〜2306頁。13.ハートフォード(Hartford)O、マクデビット(McDevitt)D、フォスター(Foster)TJ。(1999)マトリックス−バインディング・プロテインズ・オブ・スタフィロコッカス・オーレウス:ファンクショナル・アナリシス・オブ・ニュータント・アンド・ハイブリッド・モレクルズ(Matrix-binding proteins of Staphylococcus aureus: functional analysis of mutant and hybrid molecules)。マイクロバイオロジー(Microbiology)145(Pt9)、2497〜2505頁。14.ホボーム(Hobohm),Uおよびサンダー(Sander),C.(1995)ア・シークエンス・プロパティー・アプローチ・トゥー・サーチング・プロテイン・データベーシズ(A sequence property approach to searching protein databases)ジャーナル・オブ・モレキュラー・バイオロジー(Journal of Molecular Biology)251、390〜399頁。15.イデ(Ide)T、ミケール(Michgehl)S、ナップステイン(Knappstein)S、ヒューシップ(Heusipp)G、シュミット(Schmidt)MA.(2003)ディフェレンシャル・モジュレーション・バイ・Ca2+・オブ・タイプIII・セクレション・オブ・ディフューズリー・アドへリング・エンテロパソゲニック・エシェリキア・コリ(Differential modulation by Ca2+ of type III secretion of diffusely adhering enteropathogenic Echerichia coli)。インフェクション・アンド・イミュニティー(Infection and Immunity)71(4)、1725〜1732頁。16.ランガーマン(Langermann)Sら(2000)ワクシネーション・ウィズ・FimHアドヘシン・プロテクツ・シノモルガス・モンキーズ・フロム・コロニゼーション・アンド・インフェクション・バイ・ウロパソゲニック・エシェリキア・コリ(Vaccenation with FimH adhesin protects cynomolgus monkeys from colonization and infection by uroparhogenic Escherichia coli)ジャーナル・オブ・インフェクショアウス・ディジーゼス(Journal of Infectious Diseases)181、774〜778頁。17.ロウ(Lowe)A.M.、ランバート(Lambert),P.A.、スミス(Smith),A.W.(1995)クローニング・オブ・エンテロコッカス・フェカリス・エンドカルディティス・アンチゲン:ホモロジー・ウィズ・アドヘシンズ・サム・オーラル・ストレプトコッシ(Cloning of an Enterococcusfaecalis endocarditis antigen: homology with adhesins from some oral streptococci) インフェクション・アンド・イミュニティー(Infection and Immunity)63、703〜706頁。18.マウラー(Maurer),L.、オーンドーフ(Orndorff),P.(1987)アイデンティフィケーション・アンド・キャラクテリゼーション・オブ・ジーンズ・デターミング・レセプター・バインディング・アンド・ピルス・レングス・オブ・エシェリキア・コリ・タイプ1・ピリ(Identification and characterization of genes determining receptor binding and pilus length of Escherichia coli type 1 pili)。ジャーナル・オブ・バクテリオロジー(Journal of Bacteriology)169、640〜645頁。19.マーシュラー−バウアー(Marchler-Bauer)A、パンチェンコ(Panchenko)AR、シューメーカー(Shoemaker)BA、ティーセン(Thiessen)PA、イェール(Geer)LY、ブライアント(Bryant)SH(2002)CDD:ア・データベース・オブ・コンサーブド・ドメイン・アラインメンツ・ウィズ・リンクス・トゥー・ドメイン・スリー−ディメンショナル・ストラクチャー(CDD:a database of conserved domainalignments with links to domain three-dimensional structure)。ヌクレイック・アシッズ・リサーチ(Nucleic Acids Research)1、30(1)、281〜283頁。20.ノイバウエル(Neubauer)H、ヘンセル(Hensel)A、アレクシック(Aleksic)S、メイヤー(Meyer)H.(2000)エバリュエーション・オブ・ア・エルシニア・アドヘシオン・ジーン(yadA)・スペシフィック・PCR・フォー・ジ・アイデンティフィケーション・オブ・エンテロパソゲニック・エルシニア・エンテロコリチカ(Evaluation of a Yersinia adhesion gene (yadA) specific PCR for the identification of enteropathogenic Yersinia enterocolitica)。インターナショナル・ジャーナル・オブ・フード・マイクロバイオロジー(International Journal of Food Microbiology)15、57(3)、225〜227頁。21.ニシカワ(Nishikawa),K、クボタ(Kubota),Yおよびオオイ(Ooi),T(1983)クラシフィケーション・オブ・プロテインズ・イントゥー・グループス・ベースド・オン・アミノ・アシッド・コンポジション・アンド・アザー・キャラクターII・グルーピング・イントゥー・フォー・タイプズ(Classification of proteins into groups based on amino acids composition and other characters. II. grouping into four types)。ジャーナル・オブ・バイオケミストリー(Journal of Biochemistry)94、997〜1007頁。22.ペレグリン−アルバレス(Peregrin-Alvarez)J.M.、トソカ(Tsoka),S.、オウゾウニス(Ouzounis),C.A.(2003)ザ・フィロゲネティック・エクステント・オブ・メタボリック・エンザイムス・アンド・パスウェイズ(The phylogenetic extent of metabolic enzymess and pathways)。ゲノム・リサーチ(Genome Research)13、422〜427頁。23.プリンツ(Prinz),C.、ハフシ(Hafsi),N.、ボランド(Voland),P.(2003)ヘリコバクター・ピロリ・ビルレンス・ファクターズ・アンド・ザ・ホスト・イミュン・レスポンス:インプリケーションズ・フォー・セラピューティック・ワクシネーション)(Helicobacter pylori virulence factors and the host immune response: implications for therapeutic vaccination)トレンズ・イン・マイクロバイオロジー(Trends in Microbiology)11、134〜138頁。24.ラポラ(Rapola),S.、ヤンッティ(Jantti),V.、イーローラ(Eerola),M.、ヘレナ・マケーラ(Helena Makela),P.、カイティー(Kayhty),H、キルピ(Kilpi),T.(2003)アンチ−PsaA・アンド・ザ・リスク・オブ・ニューモコッカル・AOM・アンド・キャリエージ(Anti-PsaA and the risk of pneumococcal AOM and carriage)。ワクチン(Vaccine)21、3608〜3613頁。25.リゾン(Rison),S.C.、タイクマン(Teichmann),S.A.、ソーントン(Thornton),J.M.(2002)ホモロジー、パスウェイ・ディスタンス・アンド・クロモソーマル・ローカリゼーション・オブ・ザ・スモール・モレキュル・メタボリズム・エンザイムス・イン・エシェリキア・コリ(Homology, pathway distance and chromosomal localization of the small molecule metabolism enzymes in Escherichia coli)ジャーナル・オブ・モレキュラー・バイオロジー(Journal of Molecular Biology)318、911〜932頁。26.スペランジオ(Sperandio)V、ベイリー(Bailey)C、ジロン(Giron)JA、ディリータ(DiRita)VJ、シルベイラ(Silveira)WD、ヴェットーレ(Vettore)AL、ケイパー(Kaper)JB(1996)クローニング・アンド・キャラクテリゼーション・オブ・ザ・ジーン・エンコーディング・ザ・OmpU・アウター・メンブレン・プロテイン・オブ・ビブリオ・コレレ(Cloning and characterization of the geneencoding the OmpU outer membrane protein of Vibrio cholerae)インフェクション・アンド・イミュニティー(Infection and Immunity)64(12)、5406〜5409頁。27.セントジェメ(St Geme)JWサード(3rd)、カッター(Cutter)D(2000)。ジ・ヘモフィルス・インフルエンゼ・ヒア・アドヘシン・イズ・アン・オートトランスポーター・プロテイン・ザット・レメインズ・アンクリーブド・アット・ザ・C・ターミナス・アンド・フリー・セル・アソシエイテッド(The Haemophilus influenzae Hia adhesin is an autotransporter protein that remains uncleaved at the C terminus and fully cellassociated)。ジャーナル・オブ・バクテリオロジー(Jornal of Bacteriology)182(21)、6005〜6013頁。.28.トンプソン(Thompson),J.D.、ヒギンズ(Higgins),D.G.、ギブソン(Gibson),T.J.(1994)CLUSTAL W:インプロービング・ザ・センシティビティー・オブ・プログレッシブ・マルティプル・シークエンス・アラインメント・スルー・シークエンス・ウェイティング・ポジション−スペシフィック・ギャップ・ペナルティーズ・アンド・ウェイト・マトリックス・チョイス(CLUSTAL W: improving the sensitivity of progresive multiple wequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice)。ヌクレイック・アシッズ・リサーチ(Nucleic Acids Research Res)22、4673〜4680頁。29.バンシルフガード(Van Schilfgaarde)M、バンウルセン(van Ulsen)P、エイジク(Eijk)P、ブランド(Brand)M、スタム(Stam)M、クワメ(Kouame)J、バンアルフェン(van Alphen)L、ダンケート(Dankert)J。(2000)キャラクテリゼーション・オブ・アドヘレンス・オブ・ノンタイピアブル・ヘモフィルス・インフルエンゼ・トゥー・ヒューマン・エピセリアル・セルズ(Characterization of adherence of nontypeable Haemophilus influenzae to human epithelial cells)。インフェクション・アンド・イミュニティー(Infection and Immunity)68(8)、4658〜4665頁。30.ワイズマン(Wizemann),T.M.アダム,J.E.、ランガーマン,S.(1999)。アドヘシン・アズ・ターゲッツ・フォー・ワクチン・デベロップメント・(Adhesins as targets for vaccine development)。エマージング・インフェクショアウス・ディジーゼス(Emerging Infectious Diseases)。5、395〜403頁。31.ウルフ(Wolf),Y.I.、ロゴジン(Rogozin)、I.B、コンドラショフ(Kondrashov),A.S.およびコーニン(Koonin),E.V.(2001)ゲノム・アラインメント、エボルーション・オブ・プロカリオティック・ゲノム・オーガニゼーション・アンド・プレディクション・オブ・ジーン・ファンクション・ユージング・ゲノミック・コンテクスト(Genome alignment, evolution of prokaryotic genome organization and prediction of genefunction using genomic context)。ゲノム・リサーチ(Genome Research)11、356〜372頁。32.ユー(Yu)J、レオン(Leung)WK、ゴー(Go)MY、チェン(Chan)MC、トー(To)KF、ング(Ng)EK、チャン(Chan)FK、リング(Ling)TK、チャン(Chung)SC、サング(Sung)JJ(2002)リレーションシップ・ビットウィーン・ヘリコバクター・ピロリ・babA2・ステイタス・ウィズ・ガストリック・エピセリアル・セル・ターンオーバー・アンド・プレマリグナント・ガストリック・リーションズ(Relationship between Helicobacter Pylori babA2 status with gastric epithelial cell turnover and premalignant gastric lesions)。ガット(Gut)51(4)、480〜484頁。33.ツエッゲ(Zuegge),J.、ラルフ(Ralph),S.、シューマッカー(Schmuker),M.、マクファデン(McFadden),G.I.、シュネイダー(Schneider),G.(2001)デシフェリング・アピコプラスト・ターゲッティング・シグナルズ−フィーチャー・エクストラクション・フロム・ニュークレア−エンコーデッド・プレカーサーズ・オブ・プラスモジウム・ファルシパルム・アピコプラスト・プロテインズ(Deciphering apicoplast targeting signals--feature extraction from nuclear-encoded precursors of Plasmodium falciparum apicoplast proteins)。ジーン(Gene)280、19〜26頁。ニューラルネットワークアーキテクチャを示す図である。定義された試験データセットを用いるSPAANの評価を示す図である。種々のPad値範囲におけるタンパク質数のヒストグラムプロットを示す図である。アドヘシンの中でのペアワイズ配列関係をCLUSTAL Wを用いて求め、X軸上にプロットした。スコアが高いほどペアが類似していることを示す。非アドヘシンのプロット。データは、明確な検討のために4象限形式でプロットされている。 アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、 a.(i)アミノ酸頻度、(ii)マルチプレット頻度、(iii)ジペプチド頻度、(iv)電荷組成および(v)疎水性組成である、ニューラルネットワークソフトウェアの5つの属性モジュールを用いて、タンパク質配列の配列に基づく属性をコンピュータで計算するステップと、 b.コンピュータで計算された5つの属性の各々について、人工ニューラルネットワーク(ANN)をトレーニングするステップと、 c.(Pad)≧0.51としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップと、を含む方法。 前記タンパク質の配列が病原体、真核生物および多細胞生物から得られる、請求項1に記載の方法。 前記タンパク質の配列が、大腸菌、インフルエンザ菌、ピロリ菌、肺炎マイコプラズマ、結核菌、発疹チフスリケッチア、ジンジバリス菌、シゲラフレックスネリ、ミュータンス菌、肺炎連鎖球菌、髄膜炎菌、化膿性連鎖球菌、梅毒トレポネーマおよび重症急性呼吸器症候群関連ヒトコロナウイルス(SARS)を含む生物の群から選択される病原体から得られる、請求項1に記載の方法。 前記方法が非ホモロジー法である、請求項1に記載の方法。 前記方法が配列の105の組成特性を用いる、請求項1に記載の方法。 前記方法が少なくとも90%の感度を示す、請求項1に記載の方法。 前記方法が100%の特異性を示す、請求項1に記載の方法。 前記方法が遠縁の生物からアドヘシンを同定するのを補助する、請求項1に記載の方法。 前記ニューラルネットワークが入力層と、1つの隠れ層と出力層とからなる、多層フィードフォワードトポロジーを有する、請求項1に記載の方法。 入力層のニューロンの数が各属性の入力データ点の数と等しい、請求項9に記載の方法。 「Pad」が5つのコンピュータで計算された属性から得た確率の加重線形和である、請求項1に記載の方法。 各トレーニングされたネットワークが、タンパク質配列にアドヘシンである確率値を与える、請求項1に記載の方法。 請求項1に記載の方法を実施するためのコンピュータシステムであって、CPUによってアクセスされる記憶装置にすべて保存されている、人工ニューラルネットワークを用いて種々の属性に基づいて確率を与えるSPAANプログラムと、属性を評価するその他の組み込みプログラムとを実行する中央演算処理装置と、ユーザーの入力に応じて中央演算処理装置が前記のプログラムの画面を表示するディスプレイと、ユーザーインターフェース装置とを含む、システム。 配列番号385〜658を有する、アドヘシンおよびアドヘシン様タンパク質をコードする、274種の注釈付き遺伝子のセット。 配列番号659〜763を有する、アドヘシンおよびアドヘシン様タンパク質をコードする105種の仮定的遺伝子のセット。 配列番号1〜279の、279種の注釈付きアドヘシンおよびアドヘシン様タンパク質のセット。 配列番号280〜384の、105種の仮定的アドヘシンおよびアドヘシン様タンパク質のセット。 請求項1に記載のコンピュータを利用した方法に基づく完全接続多層フィードフォワード人工ニューラルネットワークであって、前記配列と接続している、入力層と、隠れ層と出力層とを含み、各ニューロンが二進数の数であり、アドヘシンまたはアドヘシン様タンパク質を同定するために次の層の各ニューロンと接続しており、プログラムステップが [a]タンパク質配列をFASTAフォーマットで入力するステップと、 [b]A、C、D、HおよびMと名づけられ、属性Aがアミノ酸組成を表し、属性Cが電荷組成を表し、属性Dが20種のジペプチド[NG、RE、TN、NT、GT、TT、DE、ER、RR、RK、RI、AT、TS、IV、SG、GS、TG、GN、VIおよびHR]のジペプチド組成を表し、属性Hが疎水性組成を表し、属性Mがマルチプレットでのアミノ酸頻度を表す、5つのモジュールによって、ステップ[a]で得られた配列を処理して前記タンパク質配列の5種類の組成属性を数量化し、前記属性の各々の数値入力ベクトルをそれぞれ得、数値入力ベクトルの合計が105であるステップと、 [c]ステップ[b]で得られた数値入力ベクトルを、入力ニューロン層によって処理して信号を得、ニューロンの数が各属性の数値入力ベクトルの数と等しいステップと、 [d]ステップ[c]で得られた信号を、隠れ層によって処理してシナプス加重信号を得、隠れ層におけるニューロンの最適数を、各ネットワークの最高エポックでの誤差を最小化する実験によって個々に決定したステップと、 [e]ステップ[d]で得られたシナプス加重信号を、ステップ[a]で入力された各タンパク質配列に、各ネットワークモジュールによってアドヘシンであるとして確率値を与える出力層に送るステップと、 [f]ステップ[e]で得られた個々の確率を、Pad値で表され、ステップ[e]で得られた個々の確率と予測強度の尺度である相関関係の関連割合との加重平均である、アドヘシンであるタンパク質配列の最終確率を、コンピュータで計算するために用いるステップと を含む、完全接続多層フィードフォワード人工ニューラルネットワーク。 入力ニューロン層が、105種の組成特性に対応する全部で105のニューロンからなる、請求項18に記載のネットワーク。 隠れ層がアミノ酸頻度について30、マルチプレット頻度について28、ジペプチド頻度について28、電荷組成について30、疎水性組成について30として表されるニューロンからなる、請求項18に記載のネットワーク。 出力層が、各タンパク質配列の確率値として出力値を送るニューロンからなる、請求項18に記載のネットワーク。 アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、属性が(i)アミノ酸頻度、(ii)マルチプレット頻度、(iii)ジペプチド頻度、(iv)電荷組成および(v)疎水性組成である、ニューラルネットワークソフトウェアのタンパク質配列の配列に基づく属性をコンピュータで計算するステップと、コンピュータで計算された5つの属性の各々について、人工ニューラルネットワーク(ANN)をトレーニングするステップと、(Pad)≧0.51としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップとを含む方法、本方法を実施するためのコンピュータシステムならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質。 配列表