生命科学関連特許情報

タイトル：	公表特許公報(A)_治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法
出願番号：	2006552019
年次：	2007
IPC分類：	G01N 33/68,G06F 19/00,C12N 15/09,C07K 14/00

この特許の詳細情報を見る（外部サイト）

特許情報キャッシュ

サシュデヴァ，ガウラヴクマール，カウシャルジャイン，プレティブラーマシャリ，サミール，クマールラマシャンドラン，スリニヴァサン JP 2007520718 公表特許公報(A) 20070726 2006552019 20050207 治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法カウンシルオブサイエンティフィックアンドインダストリアルリサーチ 505185709 小栗昌平 100105647 本多弘徳 100105474 市川利光 100108589 高松猛 100115107 サシュデヴァ，ガウラヴクマール，カウシャルジャイン，プレティブラーマシャリ，サミール，クマールラマシャンドラン，スリニヴァサン IN 173/DEL/2004 20040206 US 60/589,227 20040720 G01N 33/68 20060101AFI20070629BHJP G06F 19/00 20060101ALI20070629BHJP C12N 15/09 20060101ALN20070629BHJP C07K 14/00 20060101ALN20070629BHJP JPG01N33/68G06F19/00 600C12N15/00 AC07K14/00 AP(BW,GH,GM,KE,LS,MW,MZ,NA,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,MD,RU,TJ,TM),EP(AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HU,IE,IS,IT,LT,LU,MC,NL,PL,PT,RO,SE,SI,SK,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AT,AU,AZ,BA,BB,BG,BR,BW,BY,BZ,CA,CH,CN,CO,CR,CU,CZ,DE,DK,DM,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,HR,HU,ID,IL,IN,IS,JP,KE,KG,KP,KR,KZ,LC,LK,LR,LS,LT,LU,LV,MA,MD,MG,MK,MN,MW,MX,MZ,NA,NI,NO,NZ,OM,PG,PH,PL,PT,RO,RU,SC,SD,SE,SG,SK,SL,SY,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC,VN,YU,ZA,ZM,ZW IN2005000037 20050207 WO2005076010 20050818 50 20061006 １．Ｌｉｎｕｘ 2G045 4B024 4H045 2G045CB21 2G045DA36 2G045JA01 4B024AA01 4B024AA11 4B024AA20 4B024BA80 4B024CA02 4B024HA11 4B024HA20 4H045AA10 4H045EA20 4H045EA50 アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法；この方法を実施するためのコンピュータシステムならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質ゲノム配列プロジェクトが進行し、種々の生物から多数の推定タンパク質配列が作製された。感染性ヒト病原体から得たタンパク質の完全なセットに関する情報を入手できることによって、それらに対抗する新規分子アプローチを開発することができると予想される。微生物病原体による疾病がうまく定着し、続いて顕在化するのに必要なステップは、宿主細胞に接着する能力である。微生物病原体は、うまく定着するために、宿主細胞表面受容体、膜または細胞外マトリックスへのその接着を媒介するアドヘシンとして知られるいくつかのタンパク質をコードしている。過去何１０年の間の宿主−病原体相互作用のこの初期事象における研究によって、種々の病原微生物において多様なアドヘシンが明らかになった。現在では、アドヘシン生合成およびアドヘシン因子の調節に関する相当な情報が利用できる。細菌接着について最も理解されている機構の１つには、線毛(pili)または線毛(fimbriae)によって媒介される接着がある。いくつかのアフィムブリアル・アドヘシン(afimbrial adhesins)も報告されている。さらに、標的宿主受容体に関する限定された知識も得られている（フィンリー(Finlay)，Ｂ．Ｂ．およびファルコー(Falkow)，Ｓ１９９７）。ワクチンを開発するための新規アプローチは、定着プロセスを抑止するためにアドヘシンを標的とすることに焦点を当てている（ウィズマン（Wizemann)ら１９９９）。しかし、個々のアドヘシンの特定の役割は解明するのが困難であった。したがって、アドヘシンまたはアドヘシン様タンパク質の予測およびそれらの機能的特性決定は、宿主病原体相互作用の分子機構の解明を補助するだけでなく、新規ワクチン製剤の開発も補助する可能性があり、これは適した実験モデル系で試験することができる。細菌接着について最も理解されている機構の１つには、線毛(pili)または線毛(fimbriae)によって媒介される接着がある。例えば、大腸菌(Escherichia coli)のＦｉｍＨおよびＰａｐＧアドヘシン（マウラー(Maurer)，Ｌ．、オーンドーフ(Orndorff)，Ｐ．（１９８７）、ボック(Bock)，Ｌ．ら（１９８５）。線毛(pili)群アドヘシンのその他の例としては、緑膿菌(Pseudomonas aeruginosa)、ナイセリア種、モラクセラ種、腸管病原性大腸菌およびコレラ菌(Vibrio cholerae)におけるIV型線毛(pili)が挙げられる（スペランディオ(Sperandio)Ｖら（１９９６）。いくつかのアフィムブリアル(afimbrial)アドヘシンとして、インフルエンザ菌(Haemophilus influenzae)のＨＭＷタンパク質（バンシルフガード(van Schilfgaarde)２０００）、繊維状血球凝集素、百日咳菌(Bordetella pertussis)のパータクチン(pertactin)（バシネット(Bassinet)ら２０００）、ピロリ菌(H. pylori)のＢａｂＡ（ユー(Yu)Ｊら２００２）およびエルシニア・エンテロコリチカ(Yersinia enterocolitica)のＹａｄＡアドヘシン（ノイバウエル(Neubauer)ら２０００）がある。腸管病原性大腸菌（ＥＰＥＣ）のインチミン受容体タンパク質（Ｔｉｒ）は、別の種類のアドヘシンである(イデ(Ide)Ｔら２００３）。その他のクラスのアドヘシンとしては、クレイブセラ・ニューモニエ(Kleibsella pneumoniae)のＭｒｋＤタンパク質、インフルエンザ菌のＨｉａ（セントジェメ(St Geme)ら２０００）、ミュータンス菌(Streptococcus mutans)のＡｇＩ／IIおよびストレプトコッカス・ゴルドニー(streptococcus gordonii)のＳｓｐＡ、ＳｓｐＢ（エグランド(Egland)ら２００１）、黄色ブドウ球菌（staphylococcus aureus)のＦｎｂＡ、ＦｎｂＢおよび化膿性連鎖球菌(Streptococcus pyogenes)のＳｆｂＩ、タンパク質Ｆ、肺炎連鎖球菌(Streptococcus pneumoniae)のＰｓａＡ（デ(De)ら２００３）が挙げられる。ワクチンとして承認されているアドヘシンの公知の例としては、百日咳菌、百日咳の病原因子に対するＦＨＡとパータクチンとを含有する無細胞百日咳ワクチンがある（ハルパリン(Halperin)，Ｓら２００３）。ＦｉｍＨでの免疫化は、病原性大腸菌に対する感染防御免疫について評価されており（ランガーマン(Langermann)Ｓら２０００）、肺炎連鎖球菌では、ＰｓａＡが、肺炎球菌による疾病に対する可能性あるワクチン候補として調べられている（ラポラ(Rapola)，Ｓら２００３）。ＢａｂＡアドヘシンでの免疫化結果は、ピロリ菌に対するワクチンの開発に向けて見込みを示した（プリンツ(Prinz)，Ｃら２００３）。合成ペプチド配列抗アドヘシンワクチンは、緑膿菌感染に対する保護について評価されている。従来実験法によるアドヘシンおよびアドヘシン様タンパク質のスクリーニングは、骨が折れる、時間がかかる、費用がかかるものである。アドヘシンの同定を容易にするために、代替法としてホモロジー検索が用いられている。しかし、この手順はゲノム構成（ウォルフ(Wolf)ら２００１）および代謝経路（ペレグリン−アルバレス(Peregrin-Alvarez)ら２００３、リゾン(Rison)ら２００２）の解析において有用であり、相同体が機能的に特性決定されていない場合または配列分散が高い場合には、機能予測を可能にすることが幾分か制限される。この技術に基づく、タンパク質の機能的役割の割り当ては、約６０％の予測タンパク質配列についてしか可能でなかった（フレーザー(Fraser)ら２０００）。したがって、本発明者らは、広い系統発生範囲に属する種においてアドヘシンおよびアドヘシン様タンパク質を同定するための、人工ニューラルネットワークの力と組み合わせた配列組成特性に基づく非ホモロジー法を開発する可能性を探索した。２０年前、ニシカワらは、組成分析に基づいてタンパク質を種々の群に分類するいくつかの初期の試みを実施した（ニシカワら１９８３）。より最近では、従来のアラインメントツールでは類似する配列をはっきりと同定できないタンパク質配列を分析するためのソフトウェアＰｒｏｐＳｅａｒｃｈが開発された（ホボーム(Hobohm),Ｕおよびサンダー(Sander),Ｃ１９９５）。ＰｒｏｐＳｅａｒｃｈはタンパク質配列の１４４の組成特性を用いて新規配列とデータベース中の配列との間の、可能性ある構造上のまたは機能上の関連を検出する。最近、タンパク質の組成属性を用い、人工ニューラルネットワークをトレーニングすることによって、細菌において分泌タンパク質を、および熱帯熱マラリア原虫(Plasmodium falciparum)においてアピコプラストターゲッティングタンパク質を予測するソフトウェアが開発された（ツエッゲ(Zuegge)ら２００１）。ツエッゲ(Zuegge)らは、２０のアミノ酸組成特性を用いた。その目的は熱帯熱マラリア原虫においてアピコプラストターゲッティングタンパク質の特徴を抽出することであった。これは、宿主−病原体相互作用に関与するアドヘシンおよびアドヘシン様タンパク質に焦点を当てている本発明者らのソフトウェアＳＰＡＡＮとは異なっている。ホボーム(Hobohm)およびサンダー(Sander)は、等電点およびアミノ酸およびジペプチド組成を含む１４４の組成特性を用いて、ＢＬＡＳＴおよびＦＡＳＴＡのようなその他の配列アラインメントに基づくアプローチを用いる解析では手に負えないタンパク質の推定される機能的役割に関して仮説を立てた。ホボーム(Hobohm)およびサンダー(Sander)は、ＳＰＡＡＮの焦点である、アドヘシンおよびアドヘシン様タンパク質の問題には具体的に対応していない。ニシカワらは、最初はタンパク質を種々の機能群に分類しようとした。これは好奇心によって動かされた課題であったが、最終的に細胞外タンパク質と細胞内タンパク質を区別するソフトウェアの開発を導いた。この研究は、ＳＰＡＡＮの焦点である、アドヘシンおよびアドヘシン様タンパク質の問題に対応するものではなかった。したがって、前記の研究群の中には、本願の方法を想定できるものは１つもなかった。本願の発明的方法は、新規タンパク質および対応する遺伝子配列を提供する。アドヘシンおよびアドヘシン様タンパク質は、宿主−病原体相互作用を媒介する。これは、微生物病原体による宿主の定着における第１のステップである。世界中の試みは、病原体由来のアドヘシンタンパク質を含むワクチン製剤を設計することに焦点を当てている。免疫化されると、宿主は、その病原体のアドヘシンに対して準備刺激を受けた免疫系を有することとなる。病原体が実際に遭遇されると、監視機構がこれらのアドヘシンを認識し、抗原−抗体相互作用によってそれらと結合し、補体媒介カスケードおよびその他の関連クリアランス機構によって病原体を中和する。この戦略は百日咳の場合にはうまく用いられてきており、肺炎、胃潰瘍および尿路感染症の場合には積極的に推し進められている。本発明の目的本発明の主目的は、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法を提供することである。本発明のもう１つの目的は、種々の病原体において、推定アドヘシンとしての独特の組成特徴を有するタンパク質をスクリーニングする法を提供することである。本発明のさらにもう１つの目的は、予防用治療薬として有用である推定アドヘシンタンパク質をコードする遺伝子配列の使用を提供することである。アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、ソフトウェアＳＰＡＡＮの５つの属性モジュール、（i）アミノ酸頻度、（ii）マルチプレット頻度、（iii）ジペプチド頻度、（iv）電荷組成および（v）疎水性組成を用いてタンパク質配列の配列に基づく属性をコンピュータで計算するステップと、コンピュータで計算された５つの属性の各々について、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするステップと、（Ｐａｄ）≧０．５１としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップというステップを含む前記方法；この方法を実施するためのコンピュータシステム；ならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質。したがって、本発明は、アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、ソフトウェアＳＰＡＡＮの５つの属性モジュール、（i）アミノ酸頻度、（ii）マルチプレット頻度、（iii）ジペプチド頻度、（iv）電荷組成および（v）疎水性組成を用いてタンパク質配列の配列に基づく属性をコンピュータで計算するステップと、コンピュータで計算された５つの属性の各々について、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするステップと、（Ｐａｄ）≧０．５１としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップというステップを含む前記方法；この方法を実施するためのコンピュータシステム；ならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質に関する。本発明の一実施形態では、本発明は、アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、ａ．属性がソフトウェア、（i）アミノ酸頻度、（ii）マルチプレット頻度、（iii）ジペプチド頻度、（iv）電荷組成および（v）疎水性組成である、ニューラルネットワークソフトウェアの５つの属性モジュールを用いて、タンパク質配列の配列に基づく属性をコンピュータで計算するステップと、ｂ．コンピュータで計算された５つの属性の各々について、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするステップと、ｃ．（Ｐａｄ）≧０．５１としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップというステップを含む前記方法に関する。本発明のもう1つの実施形態では、本発明はタンパク質配列が病原体、真核生物および多細胞生物から得られる方法に関する。本発明の一実施形態では、本発明は、タンパク質配列が、大腸菌、インフルエンザ菌、ピロリ菌、肺炎マイコプラズマ、結核菌、発疹チフスリケッチア、ジンジバリス菌、シゲラフレックスネリ、ミュータンス菌、肺炎連鎖球菌、髄膜炎菌、化膿性連鎖球菌、梅毒トレポネーマおよび重症急性呼吸器症候群関連ヒトコロナウイルス（ＳＡＲＳ）を含む生物の群から選択される病原体から得られる方法に関する。本発明のさらにもう1つの実施形態では、本発明の方法は非ホモロジー法である。本発明のさらにもう1つの実施形態では、本発明は配列の１０５の組成特性を用いる方法に関する。本発明のさらにもう1つの実施形態では、本発明は少なくとも９０％の感度を示す方法に関する。本発明のさらにもう1つの実施形態では、本発明は１００％の特異性を示す方法に関する。本発明のさらにもう1つの実施形態では、本発明は遠縁の生物からアドヘシンを同定する方法に関する。本発明のさらにもう1つの実施形態では、本発明は、入力層と、１つの隠れ層と出力層とからなる多層フィードフォワードトポロジーを有するニューラルネットワークに関する。本発明のさらにもう1つの実施形態では、本発明は、各属性の入力データ点の数に等しい入力層のニューロンの数に関する。本発明のさらにもう1つの実施形態では、本発明は５つのコンピュータで計算された属性から得た確率の加重線形和である「Ｐａｄ」に関する。本発明のさらにもう1つの実施形態では、本発明はタンパク質配列にアドヘシンである確率値を与える各トレーニングされたネットワークに関する。本発明のさらにもう1つの実施形態では、本発明は請求項１に記載の方法を実施するためのコンピュータシステムであって、ＣＰＵによってアクセスされる記憶装置にすべて保存されている、人工ニューラルネットワークを用いて種々の属性に基づいて確率を与えるＳＰＡＡＮプログラムと、属性を評価するその他のインビルトプログラムとを実行する中央演算処理装置と、ユーザーの入力に応じて中央演算処理装置が前記のプログラムの画面を表示するディスプレイと、ユーザーインターフェース装置とを含む、前記システムに関する。本発明のさらにもう1つの実施形態では、本発明は配列番号３８５〜６５８を有する、アドヘシンおよびアドヘシン様タンパク質をコードする、２７４種の注釈付き遺伝子のセットに関する。本発明のさらにもう1つの実施形態では、本発明は配列番号６５９〜７６３を有する、アドヘシンおよびアドヘシン様タンパク質をコードする１０５種の仮定的遺伝子のセットに関する。本発明のさらにもう1つの実施形態では、本発明は配列番号１〜２７９の、２７９種の注釈付きアドヘシンおよびアドヘシン様タンパク質のセットに関する。本発明のさらにもう1つの実施形態では、本発明は配列番号２８０〜３８４の、１０５種の仮定的アドヘシンおよびアドヘシン様タンパク質のセットに関する。本発明のもう1つの実施形態では、本発明は請求項１に記載のコンピュータを利用した方法に基づく完全接続多層フィードフォワード人工ニューラルネットワークであって、前記配列と接続している、入力層と、隠れ層と出力層とを含み、各ニューロンが二進数の数であり、アドヘシンまたはアドヘシン様タンパク質を同定するために次の層の各ニューロンと接続しており、プログラムステップが［ａ］タンパク質配列をＦＡＳＴＡフォーマットで入力するステップと、［ｂ］Ａ、Ｃ、Ｄ、ＨおよびＭと名づけられ、属性Ａがアミノ酸組成を表し、属性Ｃが電荷組成を表し、属性Ｄが２０種のジペプチド［ＮＧ、ＲＥ、ＴＮ、ＮＴ、ＧＴ、ＴＴ、ＤＥ、ＥＲ、ＲＲ、ＲＫ、ＲＩ、ＡＴ、ＴＳ、ＩＶ、ＳＧ、ＧＳ、ＴＧ、ＧＮ、ＶＩおよびＨＲ］のジペプチド組成を表し、属性Ｈが疎水性組成を表し、属性Ｍがマルチプレットでのアミノ酸頻度を表す、５つのモジュールによって、ステップ［ａ］で得られた配列を処理して前記タンパク質配列の５種類の組成属性を数量化し、前記属性の各々の数値入力ベクトルをそれぞれ得、数値入力ベクトルの合計が１０５であるステップと、［ｃ］ステップ［ｂ］で得られた数値入力ベクトルを、入力ニューロン層によって処理して信号を得、ニューロンの数が各属性の数値入力ベクトルの数と等しいステップと、［ｄ］ステップ［ｃ］で得られた信号を、隠れ層によって処理してシナプス加重信号を得、隠れ層におけるニューロンの最適数を、各ネットワークの最高エポックでの誤差を最小化する実験によって個々に決定したステップと、［ｅ］ステップ［ｄ］で得られたシナプス加重信号を、ステップ［ａ］で入力された各タンパク質配列に、各ネットワークモジュールによってアドヘシンであるとして確率値を与える出力層に送るステップと、［ｆ］ステップ［ｅ］で得られた個々の確率を、Ｐａｄ値で表され、ステップ［ｅ］で得られた個々の確率と予測強度の尺度である相関関係の関連割合との加重平均である、アドヘシンであるタンパク質配列の最終確率を、コンピュータで計算するために用いるステップとを含む、完全接続多層フィードフォワード人工ニューラルネットワークに関する。本発明のさらにもう1つの実施形態では、入力ニューロン層は１０５の組成特性に対応する全部で１０５のニューロンからなる。本発明のさらにもう1つの実施形態では、隠れ層はアミノ酸頻度について３０、マルチプレット頻度について２８、ジペプチド頻度について２８、電荷組成について３０、疎水性組成について３０として表されるニューロンからなる。本発明のさらにもう1つの実施形態では、出力層は各タンパク質配列の確率値として出力値を送るニューロンからなる。新規アドヘシンの同定およびそれらの特性決定は、宿主−病原体相互作用の研究にとっておよび新規ワクチン製剤を試験することにとって重要である。本発明者らは、タンパク質配列の１０５の組成特性を用いてアドヘシンタンパク質を同定できる、アルゴリズムＳＰＡＡＮ（ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測のためのソフトウェア）を開発するために人工ニューラルネットワークを用いた。ＳＰＡＡＮにより、いくつかの細菌種および菌株から十分に特性決定されたアドヘシンを正しく予測できた。ＳＰＡＡＮは、トレーニングセット中のタンパク質を含まない試験データセットにおいて８９％の感度および１００％の特異性を示した。ソフトウェアによって同定された推定アドヘシンは、可能性ある予防的治療薬の役目を果たし得る。本発明は、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するための新規のコンピュータを利用した方法を提供する。さらに詳しくは、本発明は、これらのアドヘシンの候補遺伝子に関する。本発明はさらに、候補遺伝子を開発するための新規リード、および予防的アプローチとその機能で関連するそれらによってコードされるタンパク質を提供する。このコンピュータを利用した方法は、いくつかの配列属性の算出を含み、それに続く解析によって、種々の病原体におけるアドヘシンタンパク質の同定がもたらされる。したがって、本発明は病原生物におけるアドヘシンタンパク質の同定にとって有用である。種々のゲノムから得たアドヘシンタンパク質は、標的遺伝子破壊、マイクロアレイおよびプロテオミクスによる機能的特性決定のための候補のセットとなる。さらに、これらのタンパク質は、予防的治療薬の開発におけるさらなる試験のための候補のセットとなる。また、候補アドヘシンタンパク質をコードする遺伝子も提供される。本方法は、骨の折れる、時間のかかる従来法と比較した、新規アドヘシンを同定するための用いる原理の新規性およびニューラルネットワークの力を提供する。本方法は、配列アラインメントの代わりにタンパク質の組成特性に基づいている。したがって、本方法は、広い系統発生範囲に属する細菌からアドヘシンおよびアドヘシン様タンパク質を同定する能力を有する。本方法からなされる予測は、独立した分析および実験によって容易に検証できる。本発明は、技能を持った人材と貴重な時間が必要であるという点で現在は高い投資が必要である、新規予防的治療薬の開発を加速する可能性がある。本発明は治療可能性のある候補アドヘシンタンパク質を同定するためのコンピュータを利用した方法に関する。本発明は、種々の病原体のゲノムにおいてアドヘシンタンパク質を同定するための新規方法を特に記載する。こういったアドヘシンタンパク質は、予防的治療薬を開発するのに使用できる。また、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法は、アミノ酸頻度、マルチプレット頻度、ジペプチド頻度、電荷組成および疎水性組成と名づけられる５つの配列属性下の１０５の組成特性の算出と、タンパク質のアドヘシンと非アドヘシンクラス間を区別するために、これらの特性を用いて人工ニューラルネットワーク（ＡＮＮ、フィードフォワード誤差逆伝播）をトレーニングすることを含む。このコンピュータを利用した方法は、クエリータンパク質の１０５の組成属性を数量化し、Ｐａｄ値（アドヘシンである確率）によってそれらをアドヘシンまたは非アドヘシンとして認定する。本発明は、病原生物においてアドヘシンおよびアドヘシン様タンパク質を同定するのに有用である。これらの新規に同定されたアドヘシンおよびアドヘシン様タンパク質は、新規予防的治療薬を開発するための候補のセットとなり、これらは適した実験モデル系において容易に試験できる。さらに、候補アドヘシンおよびアドヘシン様タンパク質をコードする遺伝子も提供される。本発明は、予防的治療薬としてさらに評価するための、候補アドヘシンおよびアドヘシン様タンパク質のセットおよびそれらのコーディング遺伝子を提供する。本発明の方法は、機能的ドメインに分類された配列パターンの代わりにタンパク質配列属性の解析に基づいている。本方法は配列関係にはあまり依しておらず、したがって、遠縁の生物からアドヘシンを同定する潜在的な力を提供する。本発明は、人工ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測を含む、コンピュータを利用した方法を提供する。アドヘシンと呼ばれるタンパク質は、種々の病原体において高い確率（Ｐａｄ≧０．５１）で予測されることがわかった。いくつかのアドヘシン配列は、抗原性であるか、病原性に関与するタンパク質と同一または相同であることがわかった。このアプローチによって、タンパク質を同定でき、種々の病原生物によって引き起こされる疾病を根絶するための新規ワクチン製剤の開発におけるさらなる試験のためのショートリストに載せることができた。（表の説明）表１：ＳＰＡＡＮによって与えられる出力ファイルフォーマット。表２：生物名、受託番号、塩基対の数、公開日およびタンパク質の全数。表３：ＳＰＡＡＮを用いた、種々の細菌病原体からの十分に特性決定されたアドヘシンの予測。表４：いくつかの選択した病原生物のゲノムスキャンでのＳＰＡＡＮによってなされた予測の分析。表５：表２に列挙されたゲノムにおいてＳＰＡＡＮによって予測された新規推定アドヘシンのＧＩ番号および遺伝子ＩＤ。表６：表２に列挙されたゲノムにおいてＳＰＡＡＮによって推定アドヘシンとして予測された仮定的タンパク質のＧＩ番号および遺伝子ＩＤ。表７：細菌において見出された１９８種のアドヘシンの一覧。ソフトウェアプログラムはＣ言語で書かれており、ＲｅｄＨａｔＬｉｎｕｘ８．０オペレーティングシステムで作動している。コンピュータプログラムは、ＦａｓｔＡフォーマットの入力タンパク質配列を受け入れ、表形式出力を生じる。出力表には、５つのモジュールの各々の確率出力、これら５つのモジュールの加重平均確率（Ｐａｄ）および入力配列ファイルに記載されているタンパク質の機能を記載する、各タンパク質につき１つの行が含まれる。このソフトウェアはＳＰＡＡＮ（ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測のためのソフトウェア）と呼ばれ、ソフトウェア著作権が申請されている。このソフトウェアは複数のモジュールを有するが、これらのモジュールの作動は統合されており自動化されている。ユーザーは１つのコマンドを走らせる必要があるだけである。ＡＡｃｏｍｐｏ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル。出力：１行に各タンパク質について２０種のＡＡすべての頻度を含むファイル。ｃｈａｒｇｅ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル。出力：帯電したアミノ酸（Ｒ、Ｋ、ＥおよびＤ）の頻度および帯電したアミノ酸の位置のモーメント（１８次まで）を含むファイル。ｈｄｒ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル。出力：疎水性および５次までの位置のモーメントに基づいて形成されるアミノ酸の５つの群の頻度を含むファイル。ｍｕｌｔｉｐｌｅｔｓ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル。出力：２０種のアミノ酸各々のマルチプレットの割合を含むファイル。ｑｕｅｒｙｄｉｐｅｐ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル１。ジペプチド分析における有意なジペプチドの一覧を含むファイル２。出力：入力ファイル１中の各タンパク質についての、入力ファイル２に列挙されたジペプチドの頻度を含むファイル。ｔｒａｉｎ．ｃ：入力：以下の明細事項を含むファイル− １．入力および出力パラメータ数２．隠れ層におけるノード数３．トレーニング、検証および試験データファイルの名称。４．学習速度、モーメントの係数。５．トレーニングのサイクルの最大数。出力：出力は以下の通りである。１．試験データセットについてトレーニングされたＮＮの出力。２．トレーニングされたＮＮにおける重み接続の値。３．トレーニングに関するいくつかのその他の情報。ｒｅｃｏｇｎｉｚｅ．ｃ：入力：以下の明細事項を含むファイル。１．入力および出力パラメータ数。２．隠れ層におけるノード数。３．クエリー入力ファイルの名称。４．トレーニングされたＮＮの重み接続の値を含むファイルの名称。５．出力ファイルの名称。出力：トレーニングされたＮＮによって算出されたクエリー入力についての出力。ｓｔａｎｄａｒｄ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル。出力：配列内にあるすべての改行文字が除去された、ｆａｓｔａフォーマットのタンパク質配列を含むファイル。ｆｉｌｔｅｒ．ｃ：入力：ｆａｓｔａフォーマットのタンパク質配列を含むファイル。出力：長さの短いもの（＜５０ＡＡ）および２０種の公知のアミノ酸以外の何らかのアミノ酸を含むものを除く、入力から得たタンパク質配列を含むファイル。５つの属性：（アミノ酸頻度）アミノ酸頻度ｆｉ＝(配列中のｉ番目のアミノ酸の総数）／ｌ；ｉ，＝１…２０、ｌはタンパク質の長さである。（マルチプレット頻度）マルチプレットはホモポリマーの広がり（Ｘ）ｎ（ここで、Ｘは２０種のアミノ酸のうちのいずれかであり、ｎは整数＞２である）として定義する。すべてのマルチプレットを同定した後、マルチプレットにおけるアミノ酸の頻度を以下のようにコンピュータで計算した。ｆｉ（ｍ）＝（マルチプレットとして出現するｉ番目のアミノ酸の総数）／ｌ（ジペプチド頻度）ジペプチド（ｉ，ｊ）ｆｉｊの頻度＝（ｉｊ番目のジペプチドの総数）／（全ジペプチド総数）；ｉ、ｊは１〜２０で変動する。タンパク質中のジペプチドリピートは、フィブリノゲンと結合する、黄色ブドウ球菌細胞表面に存在するクランピング因子の機能発現にとって重要であることがわかっている（ハードフォード(Hartford)ら１９９９）。したがって、本発明者らは、ジペプチド頻度モジュールを含めた。ジペプチドの総数は４００である。ニューラルネットワークの最適トレーニングには、オーバーフィッティングをさけるために、重み接続の総数に対する入力ベクトルの総数の割合が約２でなくてはならない（アンドレア(Andrea)ら）。したがって、本発明者らは、ｔ検定を用いて、アドヘシンデータセット（４６９種のタンパク質、データベース構成参照）中のその頻度が、非アドヘシンデータセット（７０３種のタンパク質）におけるものと有意に異なるジペプチドを同定した。上位２０種（ｔ検定のｐ値の減少する順序に並べた場合の）のジペプチドの頻度をニューラルネットワークに入力した。これらのジペプチドは（一文字ＩＵＰＡＣ−ＩＵＢコードを用いて）ＮＧ、ＲＥ、ＴＮ、ＮＴ、ＧＴ、ＴＴ、ＤＥ、ＥＲ、ＲＲ、ＲＫ、ＲＩ、ＡＴ、ＴＳ、ＩＶ、ＳＧ、ＧＳ、ＴＧ、ＧＮ、ＶＩおよびＨＲであった。第２の層に２０種のジペプチドと２８種のニューロンについて頻度を入力すると、重み接続の総数は５８８であり、これはオーバーフィッティングを避けるという基準に一致している。（電荷組成）ｆｃ＝（帯電アミノ酸の総数）／ｌで示される、帯電アミノ酸（ｐＨ７．２での側鎖のイオン化特性を考慮してＲ、Ｋ、ＥおよびＤ）の入力頻度。さらに、所与のタンパク質配列における帯電アミノ酸の分布の特性に関する情報が、帯電アミノ酸の出現位置のモーメントをコンピュータで計算することによって提供された。モーメントにより、歪度および尖度（ピークの鋭さ）などの分布パターンが特性決定されるので、本発明者らはそれらを用いて配列中の帯電している残基の分布パターンを表した。所与の次数、例えば「ｉ」のモーメントをコンピュータで計算するための一般的な表現は次のとおりである。Ｍｒ＝帯電アミノ酸の位置のｒ次モーメント＝Σ｛（Ｘｉ−Ｘｍ）γ／Ｎ｝｛式中、Ｘｍ＝帯電アミノ酸のすべての位置の平均Ｘｉ＝ｉ番目の帯電アミノ酸の位置Ｎ＝配列中の帯電アミノ酸の数帯電アミノ酸の頻度およびタンパク質の長さに加え、モーメント２次〜１９次を用いてＡＮＮをトレーニングし、全２０の入力とした。１９次という上限は、アドヘシンおよび非アドヘシンの小さなデータセットに対する感度および特異性の評価に基づいて設定した。１９よりも大きな次数のモーメントは、性能の改良に有用ではなかった。（疎水性組成）所与のタンパク質配列を、ブレンデル(Brendel)ら（４３）のアミノ酸の疎水性スコアを用いてデジタル変換した。アミノ酸の５群のスコア：（Ｋ、Ｅ、Ｄ、Ｒに対して−８）、（Ｓ、Ｔ、Ｎ、Ｑに対して−４）、（Ｐ、Ｈに対して−２）、（Ａ、Ｇ、Ｙ、Ｃ、Ｗに対して＋１）、（Ｌ、Ｖ、Ｉ、Ｆ、Ｍに対して＋２）。群の各々に対して以下の入力を与えた（ａ）ｆｉ＝（ｉ番目の群の総数）／（タンパク質中の全総数）；ｉは１〜５で変動する。（ｂ）ｍｉｊ＝ｉ番目の群中のアミノ酸の位置のｊ次モーメント；ｊは２〜５で変動する。タンパク質の疎水性組成を表す、全部で２５入力をニューラルネットワークに入力した。モーメントを用いる論拠は、電荷組成入力に関する項に記載したものと同様であった。所与のタンパク質配列の全部で１０５の組成特性を一緒にして用い、それらのアドヘシン特徴を予測した。ソフトウェアＰｒｏｐＳｅａｒｃｈは、タンパク質配列の１４４の組成特性を用いて、新規配列とデータベース中の配列の間の、可能性ある構造上のまたは機能上の関連を検出する（ホボーム(Hobohm)およびサンダー(Sander)１９９５）。このアプローチではタンパク質配列相違点（または距離）を、シングレット(singlet)およびダブレット(doublet)アミノ酸組成、分子量、等電点などの組成特性の相違の加重和として定義する（タンパク質特性検索またはＰｒｏｐＳｅａｒｃｈ）。タンパク質の組成特性はまた、細菌において分泌タンパク質を、および熱帯熱マラリア原虫においてアピコプラストターゲッティングタンパク質を予測するために用いられている（ツエッゲ(Zuegge)ら２００１）。本明細書で用いた特性は、統計的手法、主成分分析、自己組織化マップおよび教師ありニューラルネットワークである。ＳＰＡＡＮでは、本発明者らは、５つのモジュール、すなわち、アミノ酸頻度、マルチプレット頻度、ジペプチド頻度、電荷組成、疎水性組成において１０５の組成特性を用いた。ＳＰＡＡＮに用いた全部で１０５の特性は、アミノ酸頻度について２０、マルチプレット頻度について２０、ジペプチド頻度について２０（ｔ検定に基づいて、上位２０種の有意なジペプチドを用いる）、電荷組成について２０（帯電アミノ酸（Ｒ、Ｋ、ＥおよびＤ）の頻度および２次〜１９次のモーメント）および疎水性組成について２５（アミノ酸を５群に分類した（Ｋ、Ｅ、Ｄ、Ｒに対して−８）、（Ｓ、Ｔ、Ｎ、Ｑに対して−４）、（Ｐ、Ｈに対して−２）、（Ａ、Ｇ、Ｙ、Ｃ、Ｗに対して＋１）、（Ｌ、Ｖ、Ｉ、Ｆ、Ｍに対して＋２））。全部で２５の入力は以下からなるものとした：各群の頻度、２〜５次の各群におけるアミノ酸の位置のモーメント。（ネットワーク）フィードフォワード誤差逆伝播ニューラルネットワークを用いた。プログラムはチャールズＷアンダーソン(Charles W. Anderson)、コロラド州立大学、コンピュータサイエンス学部、フォートコリンズ、ＣＯ８０５２３、anderson@cs.colostate.eduから提供されたものである。（ニューラルネットワークアーキテクチャ）本明細書において用いたニューラルネットワークは多層フィードフォワードトポロジーを有している。入力層と、１つの隠れ層と出力層とからなる。これは、各ニューロンｉが次の層の各ユニットｊと結合している「相互結合型」ニューラルネットワークである（図１）。各結合の重みはｗｉｊで表されている。入力層中の各ニューロンの状態Ｉｉは、入力データから直接割り当てられ、他方隠れ層ニューロンの状態はシグモイド関数によってコンピュータで計算される、ｈｊ＝１／｛１＋ｅｘｐ−（ｗｊ０＋ΣｗｉｊＩｉ）｝、{式中、ｗｊ０はバイアス重みである｝。逆伝播アルゴリズムを用いて、コンピュータで計算した出力と望ましい出力の間の相違を最小化した。１万サイクル（エポック）の反復が実施される。その後、誤差が最小である最良のエポックを同定した。この時点で、トレーニングセット中の所与の入力に対して、およその目標値がネットワークから得られる。ネットワークを各属性に対して最適にトレーニングした。したがって、５つのネットワークが調製された。概念図（図１）は採用した手順を示す。入力層中のニューロンの数は、各属性の入力データ点の数と等しいものとした（例えば、アミノ酸組成属性の２０の数値入力ベクトルに対して２０のニューロン）。隠れ層中のニューロンの最適数は、各ネットワークの最良のエポックで個々に誤差を最小化する実験によって求めた。重み接続の総数の上限は、これまでに示唆されたようにオーバーフィッティングを避けるために入力ベクトルの総数の半数に設定した（アンドレア(Andrea)ら）。個々の組成属性をコンピュータで計算するためのコンピュータプログラムはＣで書かれており、ＲｅｄＨａｔＬｉｎｕｘバージョン７．３または８．０下のＰＣで実施した。ネットワークはトレーニングセットでトレーニングし、誤差をチェックし、検証セットを用いて逆伝播によって最適化する。検証セットは、トレーニングセットとは異なるものとした。十分に注釈の付いたアドヘシンの数は多くはなかったので、本発明者らは「検証セット」自体を、性能の予備的評価のための試験セットとして用い、次の項に記載した加重平均確率（Ｐａｄ値）をコンピュータで計算するための相関割合を得た。トレーニングセットには３６７種のアドヘシンと５８０種の非アドヘシンが含まれていた。検証セットには１０２種のアドヘシンと１２３種の非アドヘシンが含まれていた。アドヘシンには数字「１」を与え、非アドヘシンには数字「０」を与えた。予測の際、ネットワークには、トレーニングセットの一部ではなかった配列から新規データが入力される。各ネットワークが、所与の配列にアドヘシンである確率値を割り当てる。最終確率は、次の項に記載咲いたようにコンピュータで計算される。（アドヘシンである確率、Ｐａｄ値）クエリータンパク質は、各属性についてトレーニングされたネットワークによってモジュール式に処理される。したがって、５つの確率出力が得られる。５つのモジュールから得た確率の加重線形和である最終予測は、以下の式を用いてコンピュータで計算した：Ｐｉ＝ｉモジュールから得た確率ｆｃｉ＝トレーニングされたニューラルネットワークのｉモジュールの相関割合、{ここで、ｉ＝Ａ（アミノ酸頻度）、Ｃ（電荷組成）、Ｄ（ジペプチド頻度）、Ｈ（疎水性組成）またはＭ（マルチプレット頻度）｝。相関割合ｆｃｉは、予備的評価に用いた試験セットでトレーニングされたネットワークによって正しく予測された全入力の割合を表す（Ｐｉ、アドヘシン＞０．５およびＰｉ、非アドヘシン＜０．５）（チャールズ・アンダーソン）。（ニューラルネットワーク）フィードフォワード誤差逆伝播ニューラルネットワークを用いた。プログラムは著者、チャールズＷアンダーソン(Charles W. Anderson) コロラド州立大学、コンピュータサイエンス学部、フォートコリンズ、ＣＯ８０５２３、anderson@cs.colostate.eduからの許可を受けてウェブサイトからダウンロードした。（統計分析）すべての統計学的手法は、マイクロソフトエクセル(Microsoft Excel)（マイクロソフト社、米国(Microsoft Corporation Inc. USA)）を用いて実施した。（配列解析）ホモロジー解析は、ＣＬＵＳＴＡＬＷ（トンプソン(Thompson)ら１９９４）、ＢＬＡＳＴ（アルトシュル(Altschul)ら１９９０）、ＣＤＤ（保存ドメインデータベース）検索（マーシュラー−バウアー(Marchler-Bauer)ら２００２）を用いて実施した。微生物病原体の全ゲノム配列は、診断薬およびワクチンなどの臨床応用の開発のための新しい機会を提示する。本発明は、候補遺伝子の開発のための新規リード、および予防的治療薬とその機能で関連するそれらによってコードされるタンパク質を提供する。両クラス、すなわち、アドヘシンおよび非アドヘシンのタンパク質配列を、既存のデータベース（米国国立生物工学情報センター(National Centre for Biotechnology Information)（ＮＣＢＩ）、米国）からダウンロードした。５つの配列属性、すなわち、アミノ酸組成、マルチプレット組成、ジペプチド組成、電荷組成および疎水性組成の下、全部で１０５の組成特性を、Ｃ言語で書かれたコンピュータプログラムによってコンピュータで計算した。両データベース中のすべてのタンパク質について属性をコンピュータで計算した。次いで、配列に基づいた属性を用い、タンパク質属性の各々について人工ニューラルネットワークをトレーニングした。アドヘシンには数字「１」を与え、非アドヘシンには数字「０」を与えた。最後に、各トレーニングした人工ニューラルネットワークを用いて、病原性感染症に対する予防的治療薬の開発のために有用であると予想され得る、可能性あるアドヘシンを同定した。したがって、本発明は、治療可能性のあるアドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法を提供し、これは、１．タンパク質配列に関する入手可能な公開情報から得たアドヘシンおよび非アドヘシンタンパク質の２つの包括的データセットを比較することと、２．入手可能な公開タンパク質データセット中のタンパク質配列の配列に基づいた属性を、ニューラルネットワークを用いるアドヘシンおよびアドヘシン様タンパク質の予測のための特別に開発されたソフトウェア（ＳＰＡＡＮ）を用いてコンピュータによって算出することと、３．選択された属性について人工ニューラルネットワーク（ＡＮＮ）をトレーニングすることと、４．アドヘシンに適した確率値、「Ｐａｄ」をクエリータンパク質に割り当て、ＳＰＡＡＮで実施される、トレーニングされた人工ニューラルネットワークを用いてクエリータンパク質においてアドヘシン様特性を同定することと、５．病原体ゲノムにおいて生化学的に特性決定されている既知のタンパク質配列と比較することによって、タンパク質配列を治療可能性としてコンピュータを利用して検証することとを含む。本発明の一実施形態では、タンパク質配列データは生物、詳しくは、それだけには限らないが、大腸菌、インフルエンザ菌、ピロリ菌、肺炎マイコプラズマ、結核菌、発疹チフスリケッチア、ジンジバリス菌、シゲラフレックスネリ、ミュータンス菌、肺炎連鎖球菌、髄膜炎菌、化膿性連鎖球菌、梅毒トレポネーマ、重症急性呼吸器症候群関連コロナウイルスなどの生物から得ることができる。本発明のもう１つの実施形態では、治療可能性のあるタンパク質を同定するために用いた種々の配列に基づいた属性は、アミノ酸組成、電荷組成、疎水性組成、マルチプレット頻度およびジペプチド頻度を含む。一実施形態では、非相同アドヘシンタンパク質配列を、選択された病原体における治療に応用される既知の配列のものと比較できる。本発明の一実施形態では、アドヘシンまたはアドヘシン様タンパク質の配列は、本発明の方法によって同定された、表５および６に列挙された配列番号の配列を含む。本発明のもう１つの実施形態では、本コンピュータシステムは、ＣＰＵによってアクセスされる記憶装置にすべて保存されている、人工ニューラルネットワークを用いて種々の属性に基づいて確率を与えるＳＰＡＡＮプログラムと、属性を評価するその他のインビルトプログラムとを実行する中央演算処理装置と、ユーザーの入力に応じて中央演算処理装置が前記のプログラムの画面を表示するディスプレイと、ユーザーインターフェース装置とを含む。本発明の一実施形態では、その名称、系統、ＮＣＢＩデータベースにおける受託番号およびその他の詳細などの生物の詳細は表２に示されている：本発明を以下の実施例を用いてさらに説明するが、これらは例示であり、いかなる方法によっても本発明の範囲を制限すると解釈されるべきではない。ＳＰＡＡＮの作動：本プログラムの目的は、タンパク質配列の種々の配列に基づいた属性をコンピュータによって算出することである。本プログラムは以下のように働く： http://www.ncbi.nlm.nih.govから得られる、インターネットからダウンロードしたＦＡＳＴＡフォーマットのファイルを、名称＜ｏｒｇａｎｉｓｍ＿ｎａｍｅ＞．ｆａａで保存し、これをCプログラムによって標準フォーマットに変換し、タンパク質配列の５つの異なる属性（５つのモジュールすべてでは全部で１０５の組成特性）をコンピュータによって計算する別のセットのCプログラムに入力として回した。コンピュータによって計算された特性を、５つの異なるニューラルネットワークに入力として入力した。各トレーニングされたネットワークが、クエリータンパク質にアドヘシンである確率値を割り当てる。最終確率（Ｐａｄ）は、これら５つ個々の確率の加重平均として算出した。重みは、５つのモジュール各々の試験ランの際の正しい予測の相関値から求めた。入力／出力フォーマット：ダウンロードファイルおよびそのフォーマット：<organism_name>.faa:注釈およびタンパク質配列を保存しているファイル。入力ファイルフォーマット:FASTA“>gi.vertline.”<annotation>例えば、>gi.vertline.2314605.vertline.gb.vertline.AAD08472.vertline.ヒスチジンおよびグルタミンが豊富なタンパク質MAHHEQQQQQQANSQHHHHHHHAHHHHYYGGEHHHHNAQQHAEQQAEQQAQQQQQQQAHQQQQQKAQQQNQQY>gi.vertline.3261822.vertline.gn1.vertline.PID.vertline.e328405 PE_PGRSMIGDGANGGPGQPGGPGGLLYGNGGHGGAGAAGQDRGAGNSAGLIGNGGAGGAGGNGGIGGAGAPGGLGGDGGKGGFADEFTGGFAQGGRGGFGGNGNTGASGGMGGAGGAGGAGGAGGLLIGDGGAGGAGGIGGAGGVGGGGGAGGTGGGGVASAFGGGNAFGGRGGDGGDGGDGGTGGAGGARGAGGAGGAGGWLSGHSGAHGAMGSGGEGGAGGGGGARGEAGAGGGTSTGTNPGKAGAPGTQGDSGDPGPPG>gi.vertline.... 表中、ＰＡ、ＰＣ、ＰＤ、ＰＨ、ＰＭは５つのニューラルネットワークの出力である。（生物および配列数）ＳＰＡＡＮで実施される多層型フィードフォワードニューラルネットワークアーキテクチャ（図１）。ＦＡＳＴＡフォーマットの所与のタンパク質配列をまず、５つのモジュールＡ、Ｃ、Ｄ、ＨおよびＭで処理し、５種の組成属性を数量化する。Ａ：アミノ酸組成、Ｃ：電荷組成、Ｄ：２０種のジペプチド（ＮＧ、ＲＥ、ＴＮ、ＮＴ、ＧＴ、ＴＴ、ＤＥ、ＥＲ、ＲＲ、ＲＫ、ＲＩ、ＡＴ、ＴＳ、ＩＶ、ＳＧ、ＧＳ、ＴＧ、ＧＮ、ＶＩ、ＨＲ）のジペプチド組成、Ｈ：疎水性組成、Ｍ：マルチプレットとしてのアミノ酸頻度。示される配列は、大腸菌のＦｉｍＨ前駆体（ｇｉ５５２４６３４）の一部である。続いて、これらの数値データを入力ニューロン層に入力する。矢印の方向はデータの流れを示す。入力層中の選択されたニューロンの数は、各モジュールの数値入力ベクトルの数と等しいものとした。ネットワークは、逆伝播によって検証セットに基づいて検出の誤差を最小化することによって場合によってトレーニングした。詳細は本方法に記載されている。各ネットワークモジュールは、対応する属性に基づいて、タンパク質のアドヘシンである確率値を割り当てる。タンパク質配列のアドヘシンである最終確率はＰａｄ値、個々の確率と予測強度の尺度である相関の関連割合の加重平均である。トレーニングセットの一部ではない３７種のアドヘシンおよび３７種の非アドヘシンからなる試験セットを用いて評価されたＳＰＡＡＮの性能。所与の閾値を上回るＰａｄ値を有する（X軸にプロットされる）すべてのタンパク質のマシュー(Matthew)の相関係数（Ｙ軸にプロットされるＭｃｃ）（図２）。マシュー相関は以下のように定義される：｛式中、ＴＰ＝真の陽性、ＴＮ＝真の陰性、ＦＰ＝偽陽性、ＦＮ＝偽陰性。｝ここで、ＴＰはアドヘシンであり、ＴＮは非アドヘシンである。一般に、アドヘシンは高いＰａｄ値を有するのに対し、非アドヘシンは低いＰａｄ値を有する。したがって、所与の閾値を上回るＰａｄ値を有する既知のアドヘシンは真の陽性であるのに対し、所与の閾値を下回るＰａｄ値を有する既知の非アドヘシンは真の陰性である。感度、Ｓｎは（ＴＰ／（ＴＰ＋ＦＮ））で与えられ、特異性、Ｓｐは（ＴＰ／（ＴＰ＋ＦＰ））で与えられる。偽陰性とは既知のアドヘシンが、選択された閾値よりも低いＰａｄ値を有する場合である。同様に、選択された閾値よりも高いＰａｄ値を有する既知の非アドヘシンは偽陽性ととった。理論上の二次の多項式曲線（破線）を、カール−ピアソン相関係数Ｒ２＝０．９７９９を用いて観察された曲線（実線）にフィッティングした。理論上の曲線の最大点（一次微分係数がゼロになり、二次微分係数が負である）を参照（垂直の点線）として選択し、観察された曲線で最大Ｍｃｃ＝０．９４（矢印で示される）であると同定した。対応するＰａｄ値閾値は０．５１であった。このＰａｄ値閾値で、ＳｎおよびＳｐはそれぞれ０．８９および１．０であった。ここで留意すべきは、理論上達成可能な限界は１．０であるのに比べ、アドヘシンによって達成される最高のＰａｄ値は０．９３９であったので、ＭｃｃはＸ軸までは落ちないということである。（種々の細菌病原体に由来する周知のアドヘシンでのＳＰＡＡＮの評価）ＳＰＡＡＮの、Ｐａｄ≧０．５１でアドヘシンと非アドヘシンを区別する能力（図３−ａ）。アドヘシンおよび非アドヘシンの双方において、ＳＰＡＡＮの非ホモロジー特徴によって評価する（図３ｂおよび３ｃ）。図３（ａ〜ｃ）。ＳＰＡＡＮは非ホモロジーベースのソフトウェアである。全部で１３０種のアドヘシンおよび１３０種の非アドヘシンを分析し、ＳＰＡＡＮの予測力が配列関係によって影響を受け得るかどうかを評価した。（ａ）種々のＰａｄ値範囲におけるタンパク質数のヒストグラムプロットが示されている。斜線をつけた棒は、アドヘシンを表すのに対し、白抜きの棒は非アドヘシンを表す。ＳＰＡＡＮのアドヘシンと非アドヘシンを２つの別個のまとまりのある群に分ける能力には留意しなくてはならない。（ｂ）アドヘシンの中でのペアワイズ配列関係をＣＬＵＳＴＡＬＷを用いて求め、Ｘ軸にプロットした。スコアが高いほどペアが類似していることを示す。同じタンパク質ペアにおけるＰａｄ値の対応する相違はＹ軸にプロットした。図中の各点は、１つのペアを表す。矢印は、高い類似性にもかかわらずΔＰａｄ値が高いＦｉｍＨファミリーのタンパク質ペアを示す。ＦｉｍＨタンパク質の１種（ｇｉ：５５２４６３６）は極めて低いＰａｄ値を有していたので、この偽陰性タンパク質を含むすべてのペアは、高いΔＰａｄ値を示す。このタンパク質（ｇｉ：５５２４６３６）は、同ファミリーのその他のメンバーと比較してかなり短い長さのものである。（ｃ）非アドヘシンのプロット。データは、明確な検討のために４象限形式でプロットされている。ＣＬＵＳＴＡＬＷスコア＜２０であるタンパク質ペアの中では、大部分（アドヘシンでは８２％および非アドヘシンでは８６％）がΔＰａｄ＜０．２である。これらのデータは、ＳＰＡＡＮの非ホモロジー特性を支持するものである。ＳＰＡＡＮによる病原体のゲノムスキャンによって、周知のアドヘシンおよび新規アドヘシンおよびアドヘシン様タンパク質が同定される。利点：１．本方法は、創薬および予防治療薬において極めて重要である、推定アドヘシンを発見するのに役立つ２．本方法は、その他のタンパク質を用いるクエリータンパク質の相同性とは無関係であるので、独特なタンパク質であっても接着性質を予測するのにおいて有用である。３．本方法は使用するのが容易である。出力を算出するには、入力としてアミノ酸配列が必要なだけである。その接着性質についての情報を得るためにその他の情報は必要でない。以下を参照できる１．アンドレア(Andrea)、Ｔ．Ａ．、カライエ(Kalayeh),Ｈ．（１９９１）アプリケーションズ・オブ・ニューラルネットワーク・イン・クアンティタティブ・ストラクチャー−アクティビティー・リレーションシップス・オブ・ジヒドロホレート・レダクターゼ・インヒビターズ(Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors)ジャーナル・オブ・メディシナル・ケミストリー(Journal of Medicinal Chemistry)３４、２８２４〜２８３６頁。２．アルトシュル(Altschul)ＳＦ、ギッシュ(Gish)Ｗ、ミラー(Miller)Ｗ、マイアズ(Myers)ＥＷ、リップマン(Lipman)ＤＪ。（１９９０）ベーシック・ローカル・アラインメント・サーチ・ツール(Basic local alignment search tool)。ジャーナル・オブ・モレキュラー・バイオロジー(Journal of Molecular Biology)２１５（３）、４０３〜４１０頁。３．バシネット(Bassinet)Ｌ、ゲイラード(Gueirard)Ｐ、メートル(Maitre)Ｂ、ハウセット(Housset)Ｂ、グーノン(Gounon)Ｐ、ギソ(Guiso)Ｎ、（２０００）ロール・オブ・アドヘシン・アンド・トキシンズ・イン・インベーション・オブ・ヒューマン・トラチェアル・エピセリアル・セルズ・バイ・ボルデテラ・ペルツシス。(Role of adhesins and toxins in invasion of human tracheal epithelial cells by Bordetella pertussis.)インフェクション・アンド・イミュニティー(Infection and Immunity)６８（４）、１９３４〜１９４１頁。４．ボック(Bock)，Ｋら（１９８５）。スペシフィシティー・オブ・バイディング・オブ・ウロパソゲニック・エシェリキア・コリ・トゥー・Ｇａｌ・アルファ・１−４Ｇａｌ・コンテイニング・グリコスフィンゴリピッヅ(Specificit of a strain of a strain of uropathogenic Escherichia coli to Gal alpha 1----4Gal-containing glycosphingolipids)。ジャーナル・オブ・バイオロジカル・ケミストリー(Journal of Biological Chemistry)２６０、８５４５〜８５５１頁。５．ブレンデル(Brendel)，Ｖ、ブッチャー(Bucher)，Ｐ、ヌルバクシュ(Nourbakhsh)，Ｉ．Ｒ．、エドウィン・ブレイズデル(Edwin Blaisdell)，Ｂ．およびカーリン(Karlin)，Ｓ．（１９９２）メソッヅ・アンド・アルゴリズムス・フォー・スタティスティカル・アナリシス・オブ・プロテイン・シークエンセズ(Methods and algorithms for statistical analysis of protein sequences)。プロシーディングス・オブ・ナショナル・アカデミック・サイエンス・オブ・ユーエスエー(Proceedings of National Academic Science of USA)８９、２００２〜２００６頁。６．ブレナン(Brennan)，Ｍ．Ｊ．、デログ(Delogu)，Ｇ．、チェン(Chen)，Ｙ、バルダロフ(Bardarov)，Ｓ．、クリアコフ(Kriakov)，Ｊ．、アラビ(Alavi)，Ｍ．、ジェイコブス(Jacobs)，Ｗ．Ｒ．、（２００１）。７．エビデンス・ザット・マイコバクテリアル・ＰＥ＿ＰＧＲＳプロテインズ・アー・セル・サーフェス・コンスティチューエンツ・ザット・インフルエンス・インテラクションズ・ウィズ・アザー・セルズ(Evidence that Mycobacterial PE_PGRS proteins are cell surface constituents that influence interactions with other cells)。インフェクション・アンド・イミュニティー(Infection and Immunity)６９、７３２６〜７３３３頁。８．デ(De)ＢＫ、ウールフィット(Woolfitt)ＡＲ、バール(Barr)ＪＲ、ダンシュバー(Daneshvar)ＭＩ、サンプソン(Sampson)ＪＳ、アデス(Ades)ＥＷ、カーロン(Carlone)ＧＭ、（２００３）アナリシス・オブ・レコンビナント・アシレイテッド・ニューモコッカル・サーフェス・アドヘシン・エー・オブ・ストレプトコッカス・ニューモニエ・バイ・マス・スペクトロメトリー(Analysis of recombinant acylated pneumococcal surface adhesin A of Streptococcus pneumoniae by mass spectrometry)。アーカイブス・オブ・バイオケミストリー・アンド・バイオフィジックス(Archives Biochemistry and Biophysics)１５、４１９（２）、１４７〜１５７頁。９．エグランド(Egland)ＰＧ、デュー(Du)ＬＤ、コレンブランダー(Kolenbrander)ＰＥ、（２００１）アイデンティフィケーション・オブ・インデペンデント・ストレプトコッカス・ゴルドニー・ＳｓｐＡ・アンド・ＳｓｐＢ・ファンクションズ・イン・コアグリゲーション・ウィズ・アクチノマイセス・ネスルンジー(Identification of independent Streptococcusgordonii SspA and SspB functions in coaggregation with Actinomyces naeslundii)。インフェクション・アンド・イミュニティー(Infection and Immunity)６９（１２）、７５１２〜７５１６頁。１０．フィンレイ(Finlay)、Ｂ．Ｂ．およびファルコウ(Falkow)，Ｓ．（１９９７）コモン・シームズ・イン・マイクロバイアル・パソゲニシティー・リビジッテド(Common themes in microbial pathogenicity revisited)。マイクロバイオロジー・アンド・モレキュラー・バイオロジー・レビューズ(Microbiology and Molecular Biology Reviews)６１、１３６〜１６９頁１１．フレーザー(Fraser)，Ｃ．Ｍ．、エイサン(Eisen)，Ｊ．、フライシュマン(Fleischmann)，Ｒ．Ｄ．、ケッチャム(Ketchum)，Ｋ．Ａ．、ピータスン(Peterson)，Ｓ．（２０００）コンパラティブ・ゲノニックス・アンド・アンダースタンディング・オブ・マイクロバイアル・バイオロジー(Comparative genomics and understanding of microbial biology)エマージング・インフェクショアウス・ディジーゼス(Emerging Infectious Diseases)６、５０５〜６５１２頁１２．ハルパリン(Halperin)，Ｓ．Ａ．、シェイフェレ(Scheifele)，Ｄ．、ミルス(Mills)，Ｅ．ガスパリーニ(Guasparini)，Ｒ．、ハンフリース(Humphreys)，Ｇ．、バレット(Barreto)，Ｌ．、スミス(Smith)，Ｂ．（２００３）ネイチャー、、エボリューション、アンド・アプレイザル・オブ・アドバース・イベンツ・アンド・アンチボディー・レスポンス・アソシエイテッド・ウィズ・フィフス・コンセキューティブ・ドーズ・オブ・ア・ファイブ・コンポーネント・アセルラー・ペーツシス−ベースド・コンビネーション・ワクチン(Nature, evolution, and appraisal of adverse events and antibodyresponse associated with the fifth consecutive dose of a five-component acellular pertussis-based combination vaccine)ワクチン(Vaccine)２１、２２９８〜２３０６頁。１３．ハートフォード(Hartford)O、マクデビット(McDevitt)Ｄ、フォスター(Foster)ＴＪ。（１９９９）マトリックス−バインディング・プロテインズ・オブ・スタフィロコッカス・オーレウス：ファンクショナル・アナリシス・オブ・ニュータント・アンド・ハイブリッド・モレクルズ(Matrix-binding proteins of Staphylococcus aureus: functional analysis of mutant and hybrid molecules)。マイクロバイオロジー(Microbiology)１４５（Ｐｔ９）、２４９７〜２５０５頁。１４．ホボーム(Hobohm)，Ｕおよびサンダー(Sander)，Ｃ．（１９９５）ア・シークエンス・プロパティー・アプローチ・トゥー・サーチング・プロテイン・データベーシズ(A sequence property approach to searching protein databases)ジャーナル・オブ・モレキュラー・バイオロジー(Journal of Molecular Biology)２５１、３９０〜３９９頁。１５．イデ(Ide)Ｔ、ミケール(Michgehl)Ｓ、ナップステイン(Knappstein)Ｓ、ヒューシップ(Heusipp)Ｇ、シュミット(Schmidt)ＭＡ．（２００３）ディフェレンシャル・モジュレーション・バイ・Ｃａ２＋・オブ・タイプIII・セクレション・オブ・ディフューズリー・アドへリング・エンテロパソゲニック・エシェリキア・コリ(Differential modulation by Ca2+ of type III secretion of diffusely adhering enteropathogenic Echerichia coli)。インフェクション・アンド・イミュニティー(Infection and Immunity)７１（４）、１７２５〜１７３２頁。１６．ランガーマン(Langermann)Ｓら（２０００）ワクシネーション・ウィズ・ＦｉｍＨアドヘシン・プロテクツ・シノモルガス・モンキーズ・フロム・コロニゼーション・アンド・インフェクション・バイ・ウロパソゲニック・エシェリキア・コリ(Vaccenation with FimH adhesin protects cynomolgus monkeys from colonization and infection by uroparhogenic Escherichia coli)ジャーナル・オブ・インフェクショアウス・ディジーゼス(Journal of Infectious Diseases)１８１、７７４〜７７８頁。１７．ロウ(Lowe)Ａ．Ｍ．、ランバート(Lambert)，Ｐ．Ａ．、スミス(Smith)，Ａ．Ｗ．（１９９５）クローニング・オブ・エンテロコッカス・フェカリス・エンドカルディティス・アンチゲン：ホモロジー・ウィズ・アドヘシンズ・サム・オーラル・ストレプトコッシ(Cloning of an Enterococcusfaecalis endocarditis antigen: homology with adhesins from some oral streptococci) インフェクション・アンド・イミュニティー(Infection and Immunity)６３、７０３〜７０６頁。１８．マウラー(Maurer)，Ｌ．、オーンドーフ(Orndorff)，Ｐ．（１９８７）アイデンティフィケーション・アンド・キャラクテリゼーション・オブ・ジーンズ・デターミング・レセプター・バインディング・アンド・ピルス・レングス・オブ・エシェリキア・コリ・タイプ１・ピリ(Identification and characterization of genes determining receptor binding and pilus length of Escherichia coli type 1 pili)。ジャーナル・オブ・バクテリオロジー(Journal of Bacteriology)１６９、６４０〜６４５頁。１９．マーシュラー−バウアー(Marchler-Bauer)Ａ、パンチェンコ(Panchenko)ＡＲ、シューメーカー(Shoemaker)ＢＡ、ティーセン(Thiessen)ＰＡ、イェール(Geer)ＬＹ、ブライアント(Bryant)ＳＨ（２００２）CDD:ア・データベース・オブ・コンサーブド・ドメイン・アラインメンツ・ウィズ・リンクス・トゥー・ドメイン・スリー−ディメンショナル・ストラクチャー(CDD:a database of conserved domainalignments with links to domain three-dimensional structure)。ヌクレイック・アシッズ・リサーチ(Nucleic Acids Research)１、３０（１）、２８１〜２８３頁。２０．ノイバウエル(Neubauer)Ｈ、ヘンセル(Hensel)Ａ、アレクシック(Aleksic)Ｓ、メイヤー(Meyer)Ｈ．（２０００）エバリュエーション・オブ・ア・エルシニア・アドヘシオン・ジーン（ｙａｄＡ）・スペシフィック・ＰＣＲ・フォー・ジ・アイデンティフィケーション・オブ・エンテロパソゲニック・エルシニア・エンテロコリチカ(Evaluation of a Yersinia adhesion gene (yadA) specific PCR for the identification of enteropathogenic Yersinia enterocolitica)。インターナショナル・ジャーナル・オブ・フード・マイクロバイオロジー(International Journal of Food Microbiology)１５、５７（３）、２２５〜２２７頁。２１．ニシカワ(Nishikawa)，Ｋ、クボタ(Kubota)，Ｙおよびオオイ(Ooi)，Ｔ（１９８３）クラシフィケーション・オブ・プロテインズ・イントゥー・グループス・ベースド・オン・アミノ・アシッド・コンポジション・アンド・アザー・キャラクターII・グルーピング・イントゥー・フォー・タイプズ(Classification of proteins into groups based on amino acids composition and other characters. II. grouping into four types)。ジャーナル・オブ・バイオケミストリー(Journal of Biochemistry)９４、９９７〜１００７頁。２２．ペレグリン−アルバレス(Peregrin-Alvarez)Ｊ．Ｍ．、トソカ(Tsoka)，Ｓ．、オウゾウニス(Ouzounis)，Ｃ．Ａ．（２００３）ザ・フィロゲネティック・エクステント・オブ・メタボリック・エンザイムス・アンド・パスウェイズ(The phylogenetic extent of metabolic enzymess and pathways)。ゲノム・リサーチ(Genome Research)１３、４２２〜４２７頁。２３．プリンツ(Prinz)，Ｃ．、ハフシ(Hafsi)，Ｎ．、ボランド(Voland)，Ｐ．（２００３）ヘリコバクター・ピロリ・ビルレンス・ファクターズ・アンド・ザ・ホスト・イミュン・レスポンス：インプリケーションズ・フォー・セラピューティック・ワクシネーション)(Helicobacter pylori virulence factors and the host immune response: implications for therapeutic vaccination)トレンズ・イン・マイクロバイオロジー(Trends in Microbiology)１１、１３４〜１３８頁。２４．ラポラ(Rapola)，Ｓ．、ヤンッティ(Jantti)，Ｖ．、イーローラ(Eerola)，Ｍ．、ヘレナ・マケーラ(Helena Makela)，Ｐ．、カイティー(Kayhty)，Ｈ、キルピ(Kilpi)，Ｔ．（２００３）アンチ−ＰｓａＡ・アンド・ザ・リスク・オブ・ニューモコッカル・ＡＯＭ・アンド・キャリエージ(Anti-PsaA and the risk of pneumococcal AOM and carriage)。ワクチン(Vaccine)２１、３６０８〜３６１３頁。２５．リゾン(Rison)，Ｓ．Ｃ．、タイクマン(Teichmann)，Ｓ．Ａ．、ソーントン(Thornton)，Ｊ．Ｍ．（２００２）ホモロジー、パスウェイ・ディスタンス・アンド・クロモソーマル・ローカリゼーション・オブ・ザ・スモール・モレキュル・メタボリズム・エンザイムス・イン・エシェリキア・コリ(Homology, pathway distance and chromosomal localization of the small molecule metabolism enzymes in Escherichia coli)ジャーナル・オブ・モレキュラー・バイオロジー(Journal of Molecular Biology)３１８、９１１〜９３２頁。２６．スペランジオ(Sperandio)Ｖ、ベイリー(Bailey)Ｃ、ジロン(Giron)ＪＡ、ディリータ(DiRita)ＶＪ、シルベイラ(Silveira)ＷＤ、ヴェットーレ(Vettore)ＡＬ、ケイパー(Kaper)ＪＢ（１９９６）クローニング・アンド・キャラクテリゼーション・オブ・ザ・ジーン・エンコーディング・ザ・ＯｍｐＵ・アウター・メンブレン・プロテイン・オブ・ビブリオ・コレレ（Cloning and characterization of the geneencoding the OmpU outer membrane protein of Vibrio cholerae)インフェクション・アンド・イミュニティー(Infection and Immunity)６４（１２）、５４０６〜５４０９頁。２７．セントジェメ(St Geme)ＪＷサード(3rd)、カッター(Cutter)Ｄ（２０００）。ジ・ヘモフィルス・インフルエンゼ・ヒア・アドヘシン・イズ・アン・オートトランスポーター・プロテイン・ザット・レメインズ・アンクリーブド・アット・ザ・Ｃ・ターミナス・アンド・フリー・セル・アソシエイテッド(The Haemophilus influenzae Hia adhesin is an autotransporter protein that remains uncleaved at the C terminus and fully cellassociated)。ジャーナル・オブ・バクテリオロジー(Jornal of Bacteriology)１８２（２１）、６００５〜６０１３頁。.２８．トンプソン(Thompson)，Ｊ．Ｄ．、ヒギンズ(Higgins)，Ｄ．Ｇ．、ギブソン(Gibson),Ｔ．Ｊ．(1994)ＣＬＵＳＴＡＬＷ：インプロービング・ザ・センシティビティー・オブ・プログレッシブ・マルティプル・シークエンス・アラインメント・スルー・シークエンス・ウェイティング・ポジション−スペシフィック・ギャップ・ペナルティーズ・アンド・ウェイト・マトリックス・チョイス(CLUSTAL W: improving the sensitivity of progresive multiple wequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice)。ヌクレイック・アシッズ・リサーチ(Nucleic Acids Research Res)２２、４６７３〜４６８０頁。２９．バンシルフガード(Van Schilfgaarde)Ｍ、バンウルセン(van Ulsen)Ｐ、エイジク(Eijk)Ｐ、ブランド(Brand)Ｍ、スタム(Stam)Ｍ、クワメ(Kouame)Ｊ、バンアルフェン(van Alphen)Ｌ、ダンケート(Dankert)Ｊ。（２０００）キャラクテリゼーション・オブ・アドヘレンス・オブ・ノンタイピアブル・ヘモフィルス・インフルエンゼ・トゥー・ヒューマン・エピセリアル・セルズ(Characterization of adherence of nontypeable Haemophilus influenzae to human epithelial cells)。インフェクション・アンド・イミュニティー(Infection and Immunity)６８（８）、４６５８〜４６６５頁。３０．ワイズマン(Wizemann)，Ｔ．Ｍ．アダム，Ｊ．Ｅ．、ランガーマン，Ｓ．（１９９９）。アドヘシン・アズ・ターゲッツ・フォー・ワクチン・デベロップメント・(Adhesins as targets for vaccine development)。エマージング・インフェクショアウス・ディジーゼス(Emerging Infectious Diseases)。５、３９５〜４０３頁。３１．ウルフ(Wolf)，Ｙ．Ｉ．、ロゴジン(Rogozin)、I.B、コンドラショフ(Kondrashov)，Ａ．Ｓ．およびコーニン(Koonin)，Ｅ．Ｖ．（２００１）ゲノム・アラインメント、エボルーション・オブ・プロカリオティック・ゲノム・オーガニゼーション・アンド・プレディクション・オブ・ジーン・ファンクション・ユージング・ゲノミック・コンテクスト(Genome alignment, evolution of prokaryotic genome organization and prediction of genefunction using genomic context)。ゲノム・リサーチ(Genome Research)１１、３５６〜３７２頁。３２．ユー(Yu)Ｊ、レオン(Leung)ＷＫ、ゴー(Go)ＭＹ、チェン(Chan)ＭＣ、トー(To)ＫＦ、ング(Ng)ＥＫ、チャン(Chan)ＦＫ、リング(Ling)ＴＫ、チャン(Chung)ＳＣ、サング(Sung)ＪＪ（２００２）リレーションシップ・ビットウィーン・ヘリコバクター・ピロリ・ｂａｂＡ２・ステイタス・ウィズ・ガストリック・エピセリアル・セル・ターンオーバー・アンド・プレマリグナント・ガストリック・リーションズ(Relationship between Helicobacter Pylori babA2 status with gastric epithelial cell turnover and premalignant gastric lesions)。ガット(Gut)５１（４）、４８０〜４８４頁。３３．ツエッゲ(Zuegge)，Ｊ．、ラルフ(Ralph)，Ｓ．、シューマッカー(Schmuker)，Ｍ．、マクファデン(McFadden)，Ｇ．Ｉ．、シュネイダー(Schneider)，Ｇ．（２００１）デシフェリング・アピコプラスト・ターゲッティング・シグナルズ−フィーチャー・エクストラクション・フロム・ニュークレア−エンコーデッド・プレカーサーズ・オブ・プラスモジウム・ファルシパルム・アピコプラスト・プロテインズ(Deciphering apicoplast targeting signals--feature extraction from nuclear-encoded precursors of Plasmodium falciparum apicoplast proteins)。ジーン(Gene)２８０、１９〜２６頁。ニューラルネットワークアーキテクチャを示す図である。定義された試験データセットを用いるＳＰＡＡＮの評価を示す図である。種々のＰａｄ値範囲におけるタンパク質数のヒストグラムプロットを示す図である。アドヘシンの中でのペアワイズ配列関係をＣＬＵＳＴＡＬＷを用いて求め、Ｘ軸上にプロットした。スコアが高いほどペアが類似していることを示す。非アドヘシンのプロット。データは、明確な検討のために４象限形式でプロットされている。アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、ａ．（i）アミノ酸頻度、（ii）マルチプレット頻度、（iii）ジペプチド頻度、（iv）電荷組成および（v）疎水性組成である、ニューラルネットワークソフトウェアの５つの属性モジュールを用いて、タンパク質配列の配列に基づく属性をコンピュータで計算するステップと、ｂ．コンピュータで計算された５つの属性の各々について、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするステップと、ｃ．（Ｐａｄ）≧０．５１としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップと、を含む方法。前記タンパク質の配列が病原体、真核生物および多細胞生物から得られる、請求項１に記載の方法。前記タンパク質の配列が、大腸菌、インフルエンザ菌、ピロリ菌、肺炎マイコプラズマ、結核菌、発疹チフスリケッチア、ジンジバリス菌、シゲラフレックスネリ、ミュータンス菌、肺炎連鎖球菌、髄膜炎菌、化膿性連鎖球菌、梅毒トレポネーマおよび重症急性呼吸器症候群関連ヒトコロナウイルス（ＳＡＲＳ）を含む生物の群から選択される病原体から得られる、請求項１に記載の方法。前記方法が非ホモロジー法である、請求項１に記載の方法。前記方法が配列の１０５の組成特性を用いる、請求項１に記載の方法。前記方法が少なくとも９０％の感度を示す、請求項１に記載の方法。前記方法が１００％の特異性を示す、請求項１に記載の方法。前記方法が遠縁の生物からアドヘシンを同定するのを補助する、請求項１に記載の方法。前記ニューラルネットワークが入力層と、１つの隠れ層と出力層とからなる、多層フィードフォワードトポロジーを有する、請求項１に記載の方法。入力層のニューロンの数が各属性の入力データ点の数と等しい、請求項９に記載の方法。「Ｐａｄ」が５つのコンピュータで計算された属性から得た確率の加重線形和である、請求項１に記載の方法。各トレーニングされたネットワークが、タンパク質配列にアドヘシンである確率値を与える、請求項１に記載の方法。請求項１に記載の方法を実施するためのコンピュータシステムであって、ＣＰＵによってアクセスされる記憶装置にすべて保存されている、人工ニューラルネットワークを用いて種々の属性に基づいて確率を与えるＳＰＡＡＮプログラムと、属性を評価するその他の組み込みプログラムとを実行する中央演算処理装置と、ユーザーの入力に応じて中央演算処理装置が前記のプログラムの画面を表示するディスプレイと、ユーザーインターフェース装置とを含む、システム。配列番号３８５〜６５８を有する、アドヘシンおよびアドヘシン様タンパク質をコードする、２７４種の注釈付き遺伝子のセット。配列番号６５９〜７６３を有する、アドヘシンおよびアドヘシン様タンパク質をコードする１０５種の仮定的遺伝子のセット。配列番号１〜２７９の、２７９種の注釈付きアドヘシンおよびアドヘシン様タンパク質のセット。配列番号２８０〜３８４の、１０５種の仮定的アドヘシンおよびアドヘシン様タンパク質のセット。請求項１に記載のコンピュータを利用した方法に基づく完全接続多層フィードフォワード人工ニューラルネットワークであって、前記配列と接続している、入力層と、隠れ層と出力層とを含み、各ニューロンが二進数の数であり、アドヘシンまたはアドヘシン様タンパク質を同定するために次の層の各ニューロンと接続しており、プログラムステップが［ａ］タンパク質配列をＦＡＳＴＡフォーマットで入力するステップと、［ｂ］Ａ、Ｃ、Ｄ、ＨおよびＭと名づけられ、属性Ａがアミノ酸組成を表し、属性Ｃが電荷組成を表し、属性Ｄが２０種のジペプチド［ＮＧ、ＲＥ、ＴＮ、ＮＴ、ＧＴ、ＴＴ、ＤＥ、ＥＲ、ＲＲ、ＲＫ、ＲＩ、ＡＴ、ＴＳ、ＩＶ、ＳＧ、ＧＳ、ＴＧ、ＧＮ、ＶＩおよびＨＲ］のジペプチド組成を表し、属性Ｈが疎水性組成を表し、属性Ｍがマルチプレットでのアミノ酸頻度を表す、５つのモジュールによって、ステップ［ａ］で得られた配列を処理して前記タンパク質配列の５種類の組成属性を数量化し、前記属性の各々の数値入力ベクトルをそれぞれ得、数値入力ベクトルの合計が１０５であるステップと、［ｃ］ステップ［ｂ］で得られた数値入力ベクトルを、入力ニューロン層によって処理して信号を得、ニューロンの数が各属性の数値入力ベクトルの数と等しいステップと、［ｄ］ステップ［ｃ］で得られた信号を、隠れ層によって処理してシナプス加重信号を得、隠れ層におけるニューロンの最適数を、各ネットワークの最高エポックでの誤差を最小化する実験によって個々に決定したステップと、［ｅ］ステップ［ｄ］で得られたシナプス加重信号を、ステップ［ａ］で入力された各タンパク質配列に、各ネットワークモジュールによってアドヘシンであるとして確率値を与える出力層に送るステップと、［ｆ］ステップ［ｅ］で得られた個々の確率を、Ｐａｄ値で表され、ステップ［ｅ］で得られた個々の確率と予測強度の尺度である相関関係の関連割合との加重平均である、アドヘシンであるタンパク質配列の最終確率を、コンピュータで計算するために用いるステップとを含む、完全接続多層フィードフォワード人工ニューラルネットワーク。入力ニューロン層が、１０５種の組成特性に対応する全部で１０５のニューロンからなる、請求項１８に記載のネットワーク。隠れ層がアミノ酸頻度について３０、マルチプレット頻度について２８、ジペプチド頻度について２８、電荷組成について３０、疎水性組成について３０として表されるニューロンからなる、請求項１８に記載のネットワーク。出力層が、各タンパク質配列の確率値として出力値を送るニューロンからなる、請求項１８に記載のネットワーク。アドヘシンおよびアドヘシン様タンパク質を同定するためのコンピュータを利用した方法であって、属性が（i）アミノ酸頻度、（ii）マルチプレット頻度、（iii）ジペプチド頻度、（iv）電荷組成および（v）疎水性組成である、ニューラルネットワークソフトウェアのタンパク質配列の配列に基づく属性をコンピュータで計算するステップと、コンピュータで計算された５つの属性の各々について、人工ニューラルネットワーク（ＡＮＮ）をトレーニングするステップと、（Ｐａｄ）≧０．５１としてアドヘシンである確率を有するアドヘシンおよびアドヘシン様タンパク質を同定するステップとを含む方法、本方法を実施するためのコンピュータシステムならびにアドヘシンおよびアドヘシン様タンパク質をコードする遺伝子およびタンパク質。配列表