Cover Page

Inhaltsverzeichnis

Vorwort

Website

Grundlagen – Biologie und Datenbanken

1 Biologische Grundlagen

1.1 DNA

1.2 Genetischer Code und Genomkomposition

1.3 Transkription

1.4 RNA

1.5 Proteine

1.6 Peptidbindung

1.7 Konformation von Aminosäureseitenketten

1.8 Ramachandran-Plot

1.9 Hierarchische Beschreibung von Proteinstrukturen

1.10 Sekundärstrukturelemente

1.11 α-Helix

1.12 β-Faltblätter

1.13 Supersekundärstrukturelemente

1.14 Protein-Domänen

1.15 Proteinfamilien

1.16 Fachbegriffe

1.17 Zitierte Literatur

2 Sequenzen und ihre Funktion

2.1 Definitionen und Operatoren

2.2 DNA-Sequenzen

2.3 Proteinsequenzen

2.4 Vergleich der Sequenzkomposition

2.5 Ontologien

2.6 Semantische Ähnlichkeit von GO-Termen

2.7 Zitierte Literatur

3 Datenbanken

3.1 DNA-Sequenz-Datenbanken

3.2 RNA-Sequenz-Datenbanken

3.3 Proteinsequenz-Datenbanken

3.4 Proteinstruktur-Datenbanken

3.5 SMART: Analyse der Domänenarchitektur

3.6 STRING: Proteine und ihre Interaktionen

3.7 SCOP: Strukturelle Klassifikation von Proteinen

3.8 Pfam: Kompilation von Proteinfamilien

3.9 COG und eggNOG: Gruppen orthologer Gene

3.10 Weitere Datenbanken

3.11 Zitierte Literatur

Lernen, Optimieren und Entscheiden

4 Grundbegriffe der Stochastik

4.1 Grundbegriffe der beschreibenden Statistik

4.2 Urnenexperimente und diskrete Verteilungen

4.3 Die Kolmogoroffschen Axiome

4.4 Bedingte Wahrscheinlichkeit und Unabhängigkeit

4.5 Zufallselemente

4.6 Unabhängigkeit von Zufallselementen

4.7 Markov-Ketten

4.8 Erwartungswerte

4.9 Varianzen

4.10 Wichtige Wahrscheinlichkeitsverteilungen

4.11 Schätzer

4.12 Grundlagen statistischer Tests

4.13 Eine optimale Entscheidungstheorie: Die Neyman-Pearson-Methode

4.14 Zitierte Literatur

5 Bayessche Entscheidungstheorie und Klassifikatoren

5.1 Bayessche Entscheidungstheorie

5.2 Marginalisieren

5.3 Boosting

5.4 ROC-Kurven

5.5 Testmethoden für kleine Trainingsmengen

5.6 Zitierte Literatur

6 Klassische Cluster- und Klassifikationsverfahren

6.1 Metriken und Clusteranalyse

6.2 Das mittlere Fehlerquadrat als Gütemaß bei Clusteralgorithmen

6.3 Ein einfaches iteratives Clusterverfahren

6.4 k-Means-Clusterverfahren

6.5 Hierarchische Clusterverfahren

6.6 Nächster-Nachbar-Klassifikation

6.7 k nächste Nachbarn

6.8 Zitierte Literatur

7 Neuronale Netze

7.1 Architektur von neuronalen Netzen

7.2 Das Perzeptron

7.3 Lösbarkeit von Klassifikationsaufgaben

7.4 Universelle Approximation

7.5 Lernen in neuronalen Netzen

7.6 Codierung der Eingabe

7.7 Selbstorganisierende Karten

7.8 Zitierte Literatur

8 Genetische Algorithmen

8.1 Objekte und Funktionen

8.2 Algorithmus

8.3 Der Begriff des Schemas

8.4 Dynamik der Anzahl von Schemata

8.5 Codierung der Problemstellung

8.6 Genetisches Programmieren

8.7 Zitierte Literatur

Algorithmen und Modelle der Bioinformatik

9 Paarweiser Sequenzvergleich

9.1 Dotplots

9.2 Entwicklung eines optimalen Alignmentverfahrens

9.3 Levenshtein-Distanz

9.4 Bestimmen der Ähnlichkeit von Sequenzen

9.5 Optimales Bewerten von Lücken

9.6 Namensgebung

9.7 Zitierte Literatur

10 Sequenz-Motive

10.1 Signaturen

10.2 Die PROSITE-Datenbank

10.3 Die BLOCKS-Datenbank

10.4 Sequenz-Profile

10.5 Bestimmen von Scores für Promotor-Sequenzen

10.6 Sequenz-Logos

10.7 Konsensus-Sequenzen

10.8 Sequenzen niedriger Komplexität

10.9 Der SEG-Algorithmus

10.10 Zitierte Literatur

11 Scoring-Schemata

11.1 Zur Theorie von Scoring-Matrizen

11.2 Algorithmen bedingte Anforderung an Scoring-Matrizen

11.3 Identitätsmatrizen

11.4 PAM-Einheit

11.5 PAM-Matrizen

11.6 Erweiterte Datenbasis: Die JTT-Matrix

11.7 BLOSUM-Matrizen

11.8 Matrix-Entropie

11.9 Scoring-Schemata und Anwendungen

11.10 Scoring-Funktionen

11.11 Zitierte Literatur

12 FASTA, BLAST, PSI-BLAST

12.1 FASTA

12.2 FASTA-Statistik

12.3 BLAST

12.4 Statistik von Alignments

12.5 Vergleich der Empfindlichkeit von FASTA und BLAST

12.6 Verfeinerung der Algorithmen

12.7 Profil basierter Sequenzvergleich

12.8 Verwenden von Intermediärsequenzen

12.9 PSI-BLAST

12.10 Die Empfindlichkeit von Sequenzvergleichsmethoden

12.11 Vergleich von Profilen und Konsensus-Sequenzen

12.12 Zitierte Literatur

13 Multiple Sequenzalignments

13.1 Berechnen von Scores für multiple Sequenzalignments

13.2 Iteratives, progressives Bestimmen eines multiplen Alignments

13.3 ClustalW: Konzepte

13.4 ClustalW: Algorithmus

13.5 ClustalW: Multiples Sequenzalignment für Trypsin-Inhibitoren

13.6 T-Coffee

13.7 M-Coffee und 3D-Coffee

13.8 Alternative Ansätze

13.9 Verwenden von MSAs zur Charakterisierung von Residuen

13.10 Alignment von DNA- und RNA-Sequenzen

13.11 Zitierte Literatur

14 Grundlagen phylogenetischer Analysen

14.1 Phylogenetische Ansätze

14.2 Distanz basierte Verfahren

14.3 Linkage-Algorithmen

14.4 Der Neighbour-Joining-Algorithmus

14.5 Parsimony-Methoden

14.6 Konstruktion eines Parsimony-Baumes

14.7 Maximum-Likelihood-Ansätze

14.8 Grundannahmen phylogenetischer Algorithmen

14.9 Phylogenetische Analyse und statistische Bewertung

14.10 Weitere phylogenetische Ansätze und Resultate

14.11 Zitierte Literatur

15 Hidden-Markov-Modelle

15.1 Eine Problem orientierte Einführung

15.2 Markov-Modelle

15.3 Ergodische Markovsche Ketten

15.4 Niveau und Macht einfacher Tests

15.5 Exkurs: Grenzwertsätze

15.6 Diskrimination von CpG-Inseln

15.7 Ansätze zur Lokalisierung von CpG-Inseln

15.8 Der Begriff des Hidden-Markov-Modells

15.9 Wichtige Algorithmen für HMMs

15.10 Das zeitweise unehrliche Casino

15.11 Das Rekonstruktionsproblem für HMMs

15.12 Zitierte Literatur

16 Profil-HMMs zur Modellierung von Proteinfamilien

16.1 Profil-HMMs

16.2 Viterbi-Pfade in Profil-HMMs

16.3 Eine Lösung des Anfrageproblems

16.4 Vorwärts- und Rückwärtsvariablen

16.5 Vom MSA zum Profil-HMM

16.6 Zitierte Literatur

17 Bedingte Markovsche Zufallsfelder

17.1 Markierungsprobleme und ME-Prinzip

17.2 Der Satz von Hammersley und Clifford

17.3 IIS-Algorithmus

17.4 Linien-CRFs

17.5 Zitierte Literatur

18 Vorhersage der Sekundärstruktur

18.1 Vorhersage der Proteinsekundärstruktur

18.2 Vorhersage der RNA-Sekundärstruktur

18.3 Zitierte Literatur

19 Vergleich von Protein-3D-Strukturen

19.1 Vergleich zweier Protein-3D-Strukturen

19.2 Superposition von Protein-3D-Strukturen

19.3 SAP: Vergleich von 3D-Strukturen mithilfe von Vektorbündeln

19.4 Simulated Annealing

19.5 Superposition mithilfe von DALI

19.6 TM-Align

19.7 Zitierte Literatur

20 Homologiemodellierung und Vorhersage der Protein-3D-Struktur

20.1 Verwenden von Threading-Verfahren

20.2 Eine Profil-Methode: 3D-1D-Profile

20.3 Wissensbasierte Kraftfelder

20.4 GenThreader

20.5 3D-PSSM

20.6 HHsearch

20.7 ROSETTA/ROBETTA

20.8 Weitere Ansätze

20.9 Zitierte Literatur

21 Analyse integraler Membranproteine

21.1 Struktur integraler Membranproteine

21.2 Spezifische Probleme beim Sequenzvergleich

21.3 Vorhersage der Topologie von Helix-Bündeln

21.4 Vorhersage der Topologie und Struktur von β-Fässern

21.5 Gegenwärtiger Stand bioinformatischer Methoden

21.6 Zitierte Literatur

22 Entschlüsselung von Genomen

22.1 Shotgun-Sequenzierung

22.2 Die Anzahl von Contigs beim Shotgun-Ansatz

22.3 Basecalling

22.4 Assemblieren von Teilsequenzen

22.5 Annotation kompletter Genome

22.6 Metagenomik

22.7 Zitierte Literatur

23 Auswertung von Genexpressionsdaten

23.1 DNA-Chip-Technologie

23.2 Bioinformatische Analyse von DNA-Chip-Signalen

23.3 Identifizieren differentiell exprimierter Gene

23.4 Metriken zum Vergleich von Expressionsdaten

23.5 Algorithmen für die Analyse kompletter DNA-Chip-Datensätze

23.6 Hauptkomponentenanalyse

23.7 Biclusterverfahren

23.8 Grenzen und Alternativen

23.9 Genexpressions-Profiling

23.10 Wärmekarten

23.11 Informationsgewinnung für systembiologische Fragestellungen

23.12 Zitierte Literatur

24 Analyse von Protein-Protein-Interaktionen

24.1 Biologische Bedeutung des Interaktoms

24.2 Methoden zum Bestimmen des Interaktoms

24.3 Anforderungen an Datenbanksysteme

24.4 Analyse des Genominhaltes

24.5 Bewertung von Codon-Häufigkeiten

24.6 Suche nach korrelierten Mutationen

24.7 Vergleich phylogenetischer Bäume

24.8 Vorhersage des Interaktoms der Hefe mithilfe eines Bayesschen Klassifikators

24.9 Zitierte Literatur

25 Zum Schluss

25.1 Zitierte Literatur

Stichwortverzeichnis

Beachten Sie bitte auch weitere interessante Titel zu diesem Thema

Helms, V.

Principles of Computational Cell Biology

From Protein Complexes to Cellular Networks

2008

ISBN: 978-3-527-31555-0

Ziegler, A., Koenig, I. R., Pahlke, F.

A Statistical Approach to Genetic Epidemiology

Second, Completely Revised and Enlarged Edition

2009

ISBN: 978-3-527-32389-0

Dehmer, M., Emmert-Streib, F. (Hrsg.)

Analysis of Complex Networks

From Biology to Linguistics

2009

ISBN: 978-3-527-32345-6

Emmert-Streib, F., Dehmer, M. (Hrsg.)

Analysis of Microarray Data

A Network-Based Approach

2008

ISBN: 978-3-527-31822-3

Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., Walter, P.

Molekularbiologie der Zelle

2008

ISBN: 978-3-527-30492-9

Autoren

PD Dr. Rainer Merkl

Institut für Biophysik
und Physikalische Biochemie
Universität Regensburg
Universitätsstraße 31
93053 Regensburg

Prof. Dr. Stephan Waack

Institut für Informatik
Georg-August-Universität
Goldschmidtstraße 7
37077 Göttingen

2. erw. u. neubearb. Auflage 2009

Alle Bücher von Wiley-VCH werden sorgfältig erarbeitet. Dennoch übernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie für eventuelle Druckfehler irgendeine Haftung.

Bibliografische Information
der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind.

Satz    Hagedorn Kommunikation GmbH, Viernheim
Druck    Strauss GmbH, Mörlenbach
Bindung    Litges & Dopf GmbH, Heppenheim
Umschlaggestaltung    Adam Design, Weinheim

ISBN: 978-3-527-32594-8

Eine attraktive Webseite mit Zusatzmaterial sowie Fragen und Übungen zum Stoff finden Sie auf
www.wiley-vch.de/home/bioinformatik

Vorwort

Im vergangenen Jahrhundert hat sich in der biologischen Forschung der reduktionistische Ansatz als besonders erfolgreich erwiesen. Damit ist der Versuch gemeint, komplexe Lebensphänomene als vernetztes Zusammenwirken einfacher, in der Sprache der Physik oder Chemie beschriebener Vorgänge zu verstehen. Allerdings ist mittlerweile klar geworden, dass Lebensvorgänge mit solchen top down Ansätzen, d. h. der Zerlegung komplexer Vorgänge in einfachere, nicht vollständig zu verstehen sind. Daher gewinnen bottom up Ansätze zunehmend an Bedeutung. Diese versuchen, das Zusammenspiel der einzelnen Elemente in ihrer Gesamtheit zu modellieren. Die vielen „-omik“-Ansätze und die Konzepte der Systembiologie zielen genau in diese Richtung. So sind die Ergebnisse der Genomik und der Transkriptomik mittlerweile zu einer festen Größe und zu einer wichtigen Quelle für weiterführende Analyen und überraschende Einsichten geworden. Drei Beispiele sollen dies verdeutlichen:

Die Sequenzierung des menschlichen Genoms hat gezeigt, dass der Mensch nicht, wie bisher angenommen, bis zu 100 000 Gene, sondern nur 20 000–30 000 besitzt. Diese Anzahl liegt nicht wesentlich höher als die des Fadenwurms Caenorhabditis elegans, dessen Genom ca. 20 000 Gene umfasst. Dieses Ergebnis war für viele Wissenschaftler ein Schock, da bis dato genetische Komplexität direkt mit der Anzahl von Genen korreliert worden war. Der Befund hat einen Paradigmenwechsel ausgelöst; seither wird die Komplexität eines biologischen Systems an der Komplexität seiner Interaktionsnetzwerke gemessen.

Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente des menschlichen Genoms zu identifizieren. In der Pilotphase wurde überraschenderweise festgestellt, dass praktisch das komplette menschliche Genom abgelesen und in RNA übersetzt wird. Es wird angenommen, dass viele dieser Moleküle in bisher unbekannter Weise in Regulationsvorgänge eingreifen.

Die Sequenzierung des Schnabeltier-Genoms hat unter anderem ergeben, dass diese Art, obwohl sie Eier legt, die Gene für Milchproteine besitzt. Ihre Gift-Proteine und die Schlangengifte stammen von denselben Genfamilien ab, haben sich allerdings unabhängig entwickelt. Aus dem Vergleich molekularer Daten wurde abgeleitet, dass sich der Vorfahre des Schnabeltiers vor ca. 166 Millionen Jahren von der Linie abspaltete, die später zu den Säugetieren führte.

Wie werden derartige Befunde erhoben? Die für die Datenanalyse notwendigen Werkzeuge liefert die Bioinformatik, ein spezieller Zweig der Computerwissenschaft, der sich seit Mitte des zwanzigsten Jahrhunderts zunächst kontinuierlich und in den letzten Jahren rasant entwickelte. Zu den ersten, eher bescheidenen Aufgaben, die Biologen an Mathematiker und Informatiker herantrugen, gehÇrten die statistische Auswertung der wenigen, damals vorhandenen Sequenzen und deren Speicherung. Heutzutage werden sowohl für das Vorhalten der exponentiell wachsenden Datenmengen als auch für den Betrieb hochkomplexer Programmsuiten leistungsfähige Server-Farmen benötigt. Der Aufwand, der auf technischer und theoretischer Seite getrieben werden muss, um den berechtigten Ansprüchen und Forderungen der Anwender zu genügen, ist enorm, bleibt aber meist hinter einfach zu bedienenden Grafikoberflächen verborgen. Ebenso unbekannt ist den Nutzern häufig auch der Algorithmus, d. h. die Rechenvorschrift, die mit einem Mausklick angestoßen wird, sowie die Bedeutung der Programmparameter und deren Einfluss auf die Ergebnisse. Dies ist umso erstaunlicher, wenn man den Aufwand bedenkt, der üblicherweise für die Planung molekularbiologischer Experimente getrieben wird. Es wäre zu erwarten, dass bei der Ausführung bioinformatischer Analysen ähnlich gründlich vorgegangen würde.

Für einen sicheren und souveränen Umgang mit bioinformatischen Tools sind derartige Kenntnisse jedoch unbedingt erforderlich. Nur wer die Eigenschaften und vor allem die Limitationen der Werkzeuge kennt, kann sie optimal einsetzen, ihre Ausgabe korrekt bewerten und die Algorithmen verbessern. Daher ist eine Beschäftigung mit den grundlegenden Methoden und speziellen Konzepten, die sich in der Bioinformatik entwickelt haben, für den Anwender sinnvoll und für diejenigen, die selbst bioinformatische Werkzeuge entwickeln wollen, unbedingte Voraussetzung.

Der vorliegende Text will eine Übersicht zu den wichtigsten Methoden und Lösungsansätzen vermitteln. Einen großen Anteil nehmen Verfahren ein, die sich der Analyse von Sequenzen widmen, da sie die größten Datenbestände ausmachen. Es wurde großer Wert auf eine praxisnahe Darstellung gelegt, in die viele Beispiele und Illustrationen eingestreut sind. Zusätzlich wird auf einer Webseite Material für Übungen angeboten. Auch bei der Zusammenstellung der Übungen war es unser Ziel, den kritischen Umgang mit bioinformatischen Tools zu trainieren.

Diese zweite Auflage wäre ohne die Mithilfe und die Anregungen vieler unserer Kollegen und Studenten nicht zu realisieren gewesen. Unser besonderer Dank gilt dem Verlag Wiley-VCH und insbesondere den Herren Dr. G. Cicchetti und Dr. A. Sendtko, die uns in allen Belangen stets tatkräftig unterstützten.

Regensburg und Göttingen,
Oktober 2009

Rainer Merkl und
Stephan Waack

Website

Auf einer speziellen Website werden Übungen angeboten, die interaktiv unter Verwendung eines Browsers und mithilfe frei verfügbarer Software, sowie unter Benutzung öffentlich zugänglicher Server bearbeitet werden können. Verweise auf die wichtigsten Lerneinheiten sind bei den folgenden Kapiteln angegeben. Die Übungen haben einerseits das Ziel, das Erfassen der Algorithmen und Modelle weiter zu festigen und erlauben es andrerseits, Werkzeuge in konkreten Anwendungen praktisch zu erproben. Wir bemühen uns, das Angebot der Dynamik des Internets anzupassen. Das Übungsmaterial finden Sie auf

http://www.wiley-vch.de/home/bioinformatik

Grundlagen – Biologie und Datenbanken

Die Beschäftigung mit Algorithmen kann faszinieren. Dies gilt insbesondere dann, wenn komplexe und spannende Probleme zu lÇsen sind. Zu dieser Kategorie von Aufgaben zählen sicherlich auch diejenigen, die an die Bioinformatik herangetragen werden. Häufig müssen aus einer schier nicht zu bewältigenden Datenfülle verrauschte Signale herausgefiltert werden. Nur durch den Einsatz modernster Techniken und unter Berücksichtigung von Erkenntnissen aus der Mathematik, der Statistik und natürlich der Informatik ist es möglich, bioinformatische Algorithmenentwicklung voranzutreiben. Zusätzlich ist eine gewisse Vertrautheit mit den biologischen Strukturen und dynamischen Prozessen, die im Rechner nachzustellen sind, notwendig und hilfreich. Diese Grundlagen schaffen wir in Teil 1. Im folgenden Kapitel werden wichtige Eigenschaften von DNA, RNA, Aminosäuren und Proteinen erläutert sowie solche Fakten zu biologischen Objekten und Prozessen eingeführt, die für das Verständnis der im Text dargestellten biologischen Fragestellungen und informatischen Lösungsansätze benötigt werden.

Informationstragende Moleküle: DNA, RNA, Proteine

Anschließend wird die Datenstruktur Sequenz mit der in der Biologie eingeführten Bedeutung vorgestellt. Wir werden uns mit Operationen auf Sequenzen sowie verschiedenen Alphabeten, die zur Codierung von DNA- und Proteinsequenzen definiert wurden, beschäftigen. Sequenzen bilden die Grundlage für viele der hier eingeführten Algorithmen; sie werden uns im gesamten Text ständig begegnen. Die uns interessierenden Sequenzen haben eine biologische Funktion. Für deren Beschreibung werden zunehmend Ontologien genutzt. Wir erläutern die Gen-Ontologie, mit der Genprodukte annotiert werden.muckel

Sequenzen und ihre Funktion

Schließlich beschäftigen wir uns mit bioinformatischen Datenbanken. So werden z. B. Sequenzen oder Proteinstrukturen sowie Wissen über ihre biologische Funktion, ihre Eigenschaften, ihr Vorkommen etc. in zentralen Datenbanken gesammelt. Diese stellen den „Heiligen Gral“ der Bioinformatik dar. Praktisch bei jeder bioinformatischen Fragestellung wird in irgendeiner Weise auf Datenbanken und das darin deponierte Wissen zurückgegriffen. Dies kann im Rahmen so unterschiedlicher Aufgaben erfolgen wie der statistischen Auswertung von Sequenzen, dem Vermessen von Reaktionszentren, der Identifizierung von Transkriptionsfaktoren oder der Analyse von Hochdurchsatz-Datensätzen. Datenbanken bilden auch die Grundlage für das Generieren von Trainingsmengen, die benötigt werden, um bioinformatische Werkzeuge zu validieren und zu optimieren. Die Qualität bioinformatischer Algorithmen, d. h. deren Ausgabe, muss sich messen lassen an den in den Datenbanken deponierten und durch biochemische Experimente abgesicherten Fakten.

Bioinformatische Datenbanken

Zusätzlich zu Sequenz- und Strukturdatenbanken ist eine Fülle weiterer Datensammlungen entstanden. Wir werden einige der sogenannten sekundären Datenbanken, in denen abgeleitetes Wissen aufbereitet wird, vorstellen. Dazu zählen Beschreibungen von Stoffwechselvorgängen oder hierarchische Schemata zur Klassifikation von Proteinfamilien.

1 Biologische Grundlagen

In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.

Drei wichtige Makromoleküle: DNA, RNA, Proteine

Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.

In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.

1.1 DNA

Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus

Nucleotid

einem Zucker (in der DNA: Desoxyribose),

einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und

einem Phosphatrest.

In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).

Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.

Reverses Komplement: Sequenz des Gegenstranges

Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nucleotide.

Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei, zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.

1.2 Genetischer Code und Genomkomposition

Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).

Basentriplett

Codon

Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.

Leseraster

ORF

Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben.

Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:

Beispiel

Leserichtung →

|.....ORF.....|

Leserahmen 1 ..MetValGlyLeuSer***

2 .TyrGlyArgProGluLeu.

3 ValTrpSerAla***Val..

DNA, GTATGGTCGGCCTGAGTTAA

(Doppelstrang) CATACCAGCCGGACTCAATT

Leserahmen 4 ..HisAspAlaGlnThrLeu

5 .IleThrProArgLeu***.

6 TyrProArgGlySerAsn..

← Leserichtung

Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.

Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.

Informationsgehalt der Basenpositionen ist unterschiedlich

Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach A:T-Basenpaaren [7]. Die Genprodukte beider Gene sind an der DNA-Replikation bzw. DNA-Reparatur beteiligt.

GC-Gehalt der Genome ist phylogenetisch bedingt

Codonen kommen nicht mit annähernd gleicher Häufigkeit in Genen vor. Im Gegenteil, die Codonhäufigkeiten schwanken zwischen den taxonomischen Gruppen beträchtlich. Die Codonpräferenzen der beiden nahe verwandten Bakterien Escherichia coli und Salmonella typhimurium sind sich relativ ähnlich, Codonhäufigkeiten des Bakteriums Bacillus subtilis, das zu beiden eine große phylogenetische Distanz aufweist, sind auffällig anders.

Codonhäufigkeiten

Codonen, die für dieselbe Aminosäure codieren, werden synonyme Codonen genannt. Synonyme Codonen treten ebenfalls nicht mit vergleichbarer Häufigkeit auf, einige werden bevorzugt eingebaut. Daraus resultierende Unterschiede in der Häufigkeitsverteilung von kurzen Nucleotidketten können unter Verwendung statistischer Verfahren (Markov-Ketten) ausgenutzt werden, um die Lage von Genen vorherzusagen (z. B. im Programm Glimmer[8]). In Korrelation mit den ungleichmäßigen Codonhäufigkeiten treten Unterschiede in den Spezies spezifischen tRNA-Konzentrationen auf. tRNA ist an der Translation, d. h. der RNA-instruierten Proteinsynthese, beteiligt.

Synonyme Codonen codieren für dieselbe Aminosäure

Der genetische Code wird als degeneriert (im Sinne der in der Atomphysik eingeführten Bedeutung) bezeichnet, da einige Aminosäuren durch mehrere (synonyme) Codonen codiert werden.

Bei manchen Spezies variieren Codonhäufigkeiten zudem stark zwischen einzelnen Genen [9]. In bestimmten Genen tritt Spezies spezifisch eine Teilmenge der Codonen bevorzugt auf (Übersichten in [10] und [11]). Diese Verzerrung der Codonhäufigkeiten (codon usage bias) ist positiv korreliert mit der Genexpression [12]. Mögliche Ursachen für diese Verzerrung der Codonhäufigkeiten sind die unterschiedlichen Konzentrationen der tRNAs [13, 14], die Aufrechterhaltung der maximalen Elongationsrate, die Kosten für das Korrekturlesen sowie unterschiedliche Translationsraten der Codonen [15]. Diese Verzerrung der Codonhäufigkeiten wird als „Strategie“ interpretiert, die Wachstumsraten zu optimieren [10]. Wie wir später sehen werden, sind Unterschiede in den Codonhäufigkeiten ein wichtiges Signal, das für bioinformatische Analysen genutzt wird. Bei Prokaryonten weisen Gene, die im Genom benachbart liegen, eine ähnliche codon usage auf. Es wurde gezeigt, dass aus der Ähnlichkeit von Codonhäufigkeiten eine Interaktion der Genprodukte vorhergesagt werden kann [16]. Zudem zeigen diese Befunde die komplexe Komposition codierender DNA-Sequenzen.

Bevorzugte Codonen

Tab. 1.2 Gemittelte Codonhäufigkeiten im Genom von Escherichia coli K-12. Die Summe der Prozentwerte ergibt 100.

In Tabelle 1.2 sind die gemittelten Codonhäufigkeiten angegeben, so wie sie im Genom des Bakteriums Escherichia coli K-12 vorkommen. Auffallend selten sind in diesem Genom die Codonen AGA, AGG und CTA.

Codon usage von Escherichia coli K-12

1.3 Transkription

Ganz allgemein wird das Umschreiben eines Textes Transkription genannt. In Analogie hierzu wird die Produktion von mRNA als Kopie eines Genabschnittes ebenso bezeichnet. Die für die Transkription notwendigen Enzyme sind die DNA-abhängigen RNA-Polymerasen. Bei der Transkription wird, anstelle von T (Thymin), in die mRNA das Nucleotid U (Uracil) eingebaut. Das RNA-Molekül, das hierbei entsteht, wird Transkript genannt.

Bei der RNA-Synthese müssen zwei Bedingungen eingehalten werden:

Bedingungen bei der RNA-Synthese

Die Synthese muss unmittelbar vor einem Gen beginnen.

Es muss der sinntragende (codogene) Strang transkribiert werden.

Das Einhalten dieser Bedingungen wird erreicht durch die bevorzugte Bindung von RNA-Polymerase an Erkennungsstellen (Promotoren), die unmittelbar vor Genen liegen.

Promotoren markieren Beginn des Transkriptes

Vergleicht man die Promotoren von Escherichia coli und bildet hieraus einen „idealen Promotor“, so fällt Folgendes auf:

In einem Bereich, der ca. 10 Basenpaare stromaufwärts des Transkriptionsstarts liegt, findet sich eine Sequenz, die häufig ähnlich zu TATA (-10-Region oder TATA-Box) ist.

In einem Bereich, der ca. 35 Basenpaare stromaufwärts vom Start liegt (-35-Region), befindet sich innerhalb eines AT-reichen Abschnittes eine Sequenz, die häufig ähnlich zu TTGACA ist.

Abb. 1.3 Konsensus-Sequenz von Escherichia coli Promotoren. Der untere der beiden DNA-Stränge wird transkribiert ab Position +1; nach [17].

Abbildung 1.3 zeigt einen idealisierten Promotor; von dessen Zusammensetzung weichen bekannte Promotoren mehr oder weniger stark ab.

Für die Einleitung der Transkription ist es notwendig, dass Transkriptionsfaktoren an den Promotor oder an zusätzliche Bindestellen wie Enhancer binden. In vielen Fällen ist das genaue Zusammenwirken dieser Faktoren nicht bekannt.

DNA-Bindung von Transkriptionsfaktoren regelt RNA-Synthese

Das Identifizieren von Promotoren mittels bioinformatischer Methoden hilft, mit höherer Sicherheit Operons vorherzusagen. In prokaryontischen Genomen sind Gene häufig in Funktionseinheiten, den Operons, zusammengefasst. Diese bestehen aus einem Promotor und einer Menge von Genen. Deren Genprodukte sind meist Elemente einer größeren Funktionseinheit oder tragen zur selben Stoffwechselleistung bei. So finden sich die Gene, die an der Tryptophan-Biosynthese beteiligt sind, in einem Operon.

Operon = Funktionseinheit

1.4 RNA

Bei höheren Eukaryonten kennt man nur für einen kleinen Bruchteil des Genoms die genaue Funktion [18]. Zu den Genomabschnitten mit bekannter Funktion gehören regulatorische Elemente wie Promotoren sowie die Gene, die für Proteine oder bestimmte RNA-Spezies codieren. Für die RNA war bisher eine Funktion als Transfer-RNA, als Komponente von Ribosomen (ribosomale RNA) oder von Spleißosomen gesichert. Der erheblich größere Rest des Genoms wurde häufig als Junk-DNA bezeichnet. Jüngste, genomweite Experimente im Rahmen des ENCODE-Projektes haben jedoch gezeigt, dass Tausende, nicht für Proteine codierende Transkripte (ncRNAs) existieren, deren Bedeutung unklar ist. Diese Ergebnisse belegen für das Genom des Menschen [19] und der Maus, dass der größte Teil transkribiert wird. ncRNAs werden in kleine interferierende RNAs, mikro-RNAs und lange ncRNAs eingeteilt. Letztere haben eine Länge von mehr als 200 Nucleotiden und stellen den größten Anteil. Für diese RNA-Moleküle ist eine Beteiligung an der Organisation der Genomarchitektur und der Genexpression plausibel. Kleine RNA-Moleküle sind an einer Vielzahl von posttranskriptionalen silencing-Mechanismen beteiligt. Diese Prozesse zerstören mRNA-Moleküle, sodass kein Genprodukt (in der Regel ein Protein) gebildet werden kann.

Die Funktion der meisten RNA-Moleküle ist unbekannt

1.5 Proteine

Proteine sind ebenfalls lineare Makromoleküle; Bausteine sind in diesem Fall die 20 natürlich vorkommenden Aminosäuren. Der Aufbau dieser Molekülfamilie ist einheitlich und besteht aus einem, in allen Aminosäuren identischen, sowie einem variablen Teil, der häufig auch Aminosäurerest genannt wird (siehe Abb. 1.4). Form und Art dieses Restes beeinflussen die Wechselwirkungen zwischen den Bausteinen. Die wichtigsten Wechselwirkungen sind Wasserstoffbrückenbindungen zwischen polaren Seitenketten.

Aufgrund des unterschiedlichen Aufbaus der Seitenkette haben die Aminosäuren voneinander abweichende physikalisch-chemische Eigenschaften. Sie lassen sich z. B. bezüglich der ionischen Ladung in die Gruppen basisch, sauer und neutral einteilen. Unter den neutralen Aminosäuren, die keine elektrische Gesamtladung tragen, finden sich wiederum polare, d. h. solche, die innerhalb des Moleküls eine unterschiedliche Ladungsverteilung aufweisen. Apolare, neutrale Aminosäuren sind hydrophob (Wasser abstoßend). Sie tendieren dazu, untereinander und mit anderen hydrophoben Gruppen zu interagieren. Mit hydrophil werden Moleküle bezeichnet, die gut wasserlöslich sind. Ein Spezialfall ist Prolin, eine zyklische Iminosäure. Nach der Ausbildung der Peptidbindung steht in dieser Aminosäure kein Wasserstoff mehr zur Ausbildung von Wasserstoffbrückenbindungen zur Verfügung. Diese Eigenart hat erheblichen Einfluss auf die Proteinstruktur.

Struktur von Aminosäuren

Natur der Aminosäuren: basisch, sauer, neutral, polar, hydrophil, hydrophob

Abb. 1.4 Strukturformel der Aminosäure Phenylalanin. Der in allen Aminosäuren gleichartige Anteil ist in der Strukturformel grau unterlegt. In jeder Aminosäure ist mit dem zentralen C-Atom ein Wasserstoffatom (unten), eine Aminogruppe (links), eine Carboxylgruppe (rechts) und eine Seitengruppe (oben) verknüpft. Das zentrale C-Atom wird wegen seiner Lage im Molekül häufig als C_α-Atom bezeichnet.

Tab. 1.3 Vorkommen der Aminosäuren in Proteinen. Die Werte sind in Prozent angegeben und wurden aus einer repräsentativen Stichprobe ermittelt; nach [20]. Der hier verwendete Einbuchstabencode ist im Kapitel 2 erläutert.

Die Häufigkeiten, mit denen die 20 Aminosäuren in Proteinen vorkommen, unterscheiden sich deutlich. In Tabelle 1.3 ist das mittlere Vorkommen gelistet.

Die in Abb. 1.5 dargestellten Verwandtschaftsbeziehungen aufgrund physikalischer und chemischer Eigenschaften der Aminosäuren sind die Grundlage für viele Sequenzvergleichs- und Alignmentverfahren. Hierfür werden Scoring-Matrizen benötigt, die wiederum aus Substitutionshäufigkeiten bestimmt werden. Diese Häufigkeiten werden aus dem Vergleich einer Vielzahl ähnlicher Proteine ermittelt und spiegeln gemeinsame Eigenschaften von Aminosäuren wider. Auf die angesprochenen Verfahren und Daten gehen wir in den folgenden Kapiteln genauer ein.

Gruppierung hinsichtlich physikalisch-chemischer Eigenschaften

Abb. 1.5 Venn-Diagramm der 20 natürlichen, in Proteinen vorkommenden Aminosäuren. Die Aminosäuren wurden aufgrund solcher physikalischchemischer Eigenschaften gruppiert, die für die Tertiärstruktur von Proteinen wichtig sind. Die Aminosäuren sind im Wesentlichen in zwei Gruppen (polar und hydrophob) eingeteilt, eine dritte Gruppe (klein) umfasst die kleinen Aminosäuren. Die Menge „extrem klein“ enthält diejenigen Aminosäuren, die höchstens zwei Seitenkettenatome besitzen. Cystein (C) in reduzierter Form (C_H) ist Serin (S) ähnlich, in oxidierter Form (C_S-S) ähnelt es Valin (V). Aufgrund des speziellen Einflusses auf den Hauptkettenverlauf liegt Prolin (P) isoliert; nach [21].

1.6 Peptidbindung

Proteine sind Polypeptidketten, die aus Aminosäuren synthetisiert werden. Bei der Synthese wird die Carboxylgruppe (COOH) der einen Aminosäure mit der Aminogruppe (NH₂) des Nachbarn durch eine kovalente Bindung (Peptid-Bindung) verknüpft. Jede Polypeptidkette beliebiger Länge hat ein freies Amino-Ende (N-Terminus) und ein freies Carboxyl-Ende (C-Terminus). Die Richtung einer Kette ist definiert als vom N-Terminus zum C-Terminus zeigend. Diese Richtung stimmt überein mit der Syntheserichtung in vivo, die mit dem Ablesen der mRNA in 5′- 3′-Richtung korrespondiert.

Die an der Peptidbindung beteiligten Atome liegen jeweils starr in einer Ebene. Daher wird der Hauptkettenverlauf einer Polypeptidkette durch die Angabe von zwei Winkeln (Φ, Ψ) pro Residuum beschrieben. Diese Winkel geben die Drehung der beiden am Hauptkettenverlauf beteiligten Bindungen des zentralen C_α-Atoms jeder Aminosäure an. Beide Winkel unterliegen weiteren Einschränkungen, die sich aus der Natur des jeweiligen Aminosäurerestes herleiten. Die Rigidität der Peptidbindung und die sterische Hinderung zwischen Haupt- und Seitenkette tragen zur Stabilisierung der Proteinkonformation bei. Das erste Kohlenstoffatom, das im Rest auf das C_α-Atom folgt, wird C_β-Atom genannt. In Abb. 1.6 ist die Situation illustriert. Der Hauptkettenverlauf dient häufig dazu, Faltungstypen von Proteinen zu charakterisieren und zu vergleichen. Die Hauptkette heißt im Englischen backbone.

Φ-, Ψ-Winkel Hauptkette

Abb. 1.6 Konformation der Peptidbindung. Die an einer Peptidbindung beteiligten sechs Atome liegen jeweils in einer Ebene. In der Abbildung sind zwei derartige Bindungen gezeigt und rot markiert. Der Aminosäurerest an der betrachteten Position (hier grün) ist mit R bezeichnet. Die räumliche Anordnung des Hauptkettenverlaufes eines Polypeptids ..-C_α-C-N-C_α-C-N-C_α-.. wird bestimmt durch das für jede Position (jedes Residuum) anzugebende Paar von Winkeln (Φ, Ψ), mit dem die Lage der durch die Peptidbindung aufgespannten Flächen relativ zum C_α-Atom festgelegt ist. Der mit ω bezeichnete Winkel kann nur die Werte +180° oder −180° annehmen.

1.7 Konformation von Aminosäureseitenketten

Die Aminosäuren unterscheiden sich in der Art ihrer Seitenketten. Diese sind unterschiedlich lang und von verschiedener chemischer Natur. Jede Seitenkette kann eine von mehreren Konformationen einnehmen, die auf die Rotationsmöglichkeiten der Atombindungen zurückzuführen sind. Jede Konformation wird durch die Rotationswinkel beschrieben, die an den drehbaren Bindungen auftreten. Für die Zwecke des Proteindesigns, d. h. die rechnergestützte Modellierung, wird aus Komplexitätsgründen eine beschränkte Menge aller möglicher Seitenkettenkonformationen betrachtet, die Rotamere genannt werden. Diese sind in Bibliotheken zusammengefasst [22], [23] und enthalten diejenigen Konformationen, die in Proteinen häufig vorkommen. Aufgrund der unterschiedlichen Anzahl rotierbarer Atombindungen ist die Dimension des Konformationsraumes abhängig von der betrachteten Aminosäure: Da die Seitenketten von Glycin und Alanin keine rotierbaren Bindungen aufweisen, genügt es, diese beiden Aminosäuren jeweils durch ein Rotamer zu repräsentieren. Die Seitenketten von Arginin und Lysin sind hingegen lang gestreckt. Mit vier rotierbaren Bindungen und drei energetisch günstigen Winkeln pro Bindung resultieren jeweils 81 Rotamere. Beispiele für Rotamere sind in Abb. 1.7 zusammengefasst. Die Menge der heute bekannten Proteinstrukturen erlaubt es, die Rotamerverteilungen in Abhängigkeit von den Φ- und Ψ-Winkeln der Hauptkette zu bestimmen. Solche Hauptketten spezifischen (backbone dependent) Bibliotheken [24], [25] verbessern die Modellierungsleistung beim Proteindesign.

Konformation der Rotamere: Aminosäuren spezifisch bestimmte Bibliotheken

Abb. 1.7 Beispiele für Rotameraus-prägungen. Rotamere sind in Proteinen häufig vorkommende Seitenkettenkonformationen. In der Abbildung sind für die Aminosäuren Arginin, Glutamin, Histidin und Tyrosin jeweils drei Rotamere angegeben. Die Seitenkette von Arginin enthält vier drehbare Bindungen mit jeweils drei energetisch günstigen Winkeln. Daher ergeben sich für Arginin 81 Rotamere (3⁴). Für die Seitenkette von Glutamin resultieren aus drei drehbaren Bindungen 27 Rotamere. In den Seitenketten von Tyrosin und Histidin kommen jeweils nur zwei drehbare Bindungen vor, sodass neun Rotamere zur Beschreibung des Konformationsraumes ausreichen.

1.8 Ramachandran-Plot

In Polypeptidketten sind nicht alle möglichen Kombinationen von Φ- und Ψ-Winkeln gleich häufig. Wird die Verteilung dieser Winkel aus einer größeren Anzahl von Proteinen ermittelt, so ergeben sich die in der Abb. 1.8 gezeigten Präferenzen. Dieser Befund macht klar, dass im Konformationsraum nur drei Bereiche stärker besetzt sind. In idealisierter Weise fallen Residuen aus rechtsgängigen α-Helices in den Bereich von (−57°, −47°), während solche aus linksgängigen Helices bei (+57°, +47°) liegen. Residuen aus parallelen β-Faltblättern haben (Φ, Ψ)-Winkelkombinationen von ca. (−119°, −113°), während diejenigen aus antiparallelen Blättern bei (−139°, +135°) zu finden sind. Werden für sämtliche Residuen eines Proteins die (Φ, Ψ)-Winkel bestimmt, so liegen häufig einige Paare abseits der Maxima. Dazu gehören solche von Glycin-Resten. Der Einbau von Glycin bewirkt eine scharfe Wendung des Hauptkettenverlaufs. Diese Darstellung der Winkelkombinationen wird nach ihrem Entwickler Ramachandran-Plot genannt. Die erwähnten Sekundärstrukturelemente werden im folgenden Text genauer erläutert.

Ramachandran-Plot: Verteilung der (Φ, Ψ)-Winkel

Abb. 1.8 Ramachandran-Plot. Je nach Zugehörigkeit zu einem Sekundärstrukturelement ergeben sich für die Φ-und Ψ-Winkel der Residuen charakteristische Kombinationen.

1.9 Hierarchische Beschreibung von Proteinstrukturen

Die Eigenschaften der Seitenketten bestimmen die Wechselwirkungen innerhalb des Proteins und damit dessen dreidimensionale Konformation. Dieser Konformationszustand kann auf verschiedenen Abstraktionsebenen beschrieben werden:

Beschreibung der Proteinkonformation: Primärstruktur, Sekundärstruktur, Tertiärstruktur

Als Primärstruktur auf der Ebene der Sequenz durch die Abfolge der Aminosäuren.

Auf dem Niveau der Sekundärstruktur. Aus der Polypeptidkette falten sich Sekundärstrukturelemente, die regelmäßige Arrangements des Hauptkettenverlaufes ergeben.

Als Tertiärstruktur. Sie beschreibt die räumliche Anordnung aller Atome im Raum.

Und auf der Ebene der Proteine:

Als Quaternärstruktur. Sie definiert die Anordnung von Proteinen in Proteinkomplexen.

Wir werden Algorithmen vorstellen, die darauf abzielen, Primär-, Sekundär- und Tertiärstruktur von Proteinen zu analysieren, zu vergleichen oder vorherzusagen.

1.10 Sekundärstrukturelemente

Die Grundbausteine der Proteine sind die Aminosäuren. Deren Abfolge in Proteinen definiert die Proteinsequenz, d. h. die Primärstruktur. Die nächsthöhere Abstraktionsebene, auf der Proteine beschrieben werden können, ist die der Sekundärstruktur. Sekundärstrukturelemente sind regelmäßige 3D-Substrukturen des Hauptkettenverlaufs einer Peptidkette. Bei der Klassifizierung von Sekundärstrukturelementen werden Art und Anordnung der Aminosäurereste (Seitenketten) ignoriert. Die Stabilisierung der Sekundärstruktur erfolgt über Wasserstoffbrückenbindungen zwischen den Imino- und Carbonylgruppen innerhalb der Hauptkette.

Sekundärstrukturelemente = regelmäßig angeordnete Segmente der Hauptkette

Zusätzlich zu den hier beschriebenen Bindungskräften wird die 3D-Struktur eines Proteins im Wesentlichen durch schwache, nichtkovalente Wechselwirkungen der Aminosäureseitenketten, insbesondere durch Wasserstoffbrückenbindungen zwischen polaren Resten bestimmt. Diese Wechselwirkungen spielen bei der Betrachtung der Sekundärstruktur keine Rolle. Die beiden wichtigsten Sekundärstrukturelemente sind die α-Helix und das β-Faltblatt.

1.11 α-Helix

Sind die (Φ, Ψ)-Winkel aufeinanderfolgender Residuen konstant, so ergeben sich helikale Strukturen. Unter diesen ist die am häufigsten vorkommende die α-Helix. In der α-Helix besteht jeweils eine Wasserstoffbrückenbindung zwischen der CO-Gruppe einer Aminosäure und der NH-Gruppe der viertnächsten. Es machen jeweils 3.6 Aminosäuren eine vollständige Drehung aus. Die Abb. 1.9 zeigt einen typischen Vertreter einer α-Helix.

Abb. 1.9 Typische α-Helix. Wasserstoffbrücken sind gestrichelt eingezeichnet. Sie werden zwischen Atomen des Proteinrückgrades ausgebildet. Die Struktur ist hier als Stäbchenmodell gezeigt.

1.12 β-Faltblätter

Das zweite wichtige Sekundärstrukturelement ist das β-Faltblatt. Ein β-Faltblatt besteht aus einzelnen β-Strängen, die meist 5–10 Residuen lang sind (siehe Abb. 1.10). In β-Faltblättern bilden sich Wasserstoffbrückenbindungen zwischen Residuen unterschiedlicher Stränge aus. Hierbei wechselwirken die C=O-Gruppen des einen Stranges mit den NH-Gruppen des nächsten Stranges. Auf diese Weise können mehrere Stränge ein Blatt bilden. Die C_α-Atome aufeinanderfolgender Residuen kommen abwechselnd über oder unter der Ebene, die durch das Faltblatt aufgespannt wird, zum Liegen. Die Stränge können in zwei Richtungen verlaufen:

β-Faltblatt: parallele oder anti-parallele β-Stränge

Parallel; die durch N- und C-Terminus vorgegebene Richtung in nebeneinanderliegenden Strängen ist dieselbe.

Antiparallel; die Richtung nebeneinanderliegender β-Stränge wechselt alternierend.

Abb. 1.10 β-Faltblatt bestehend aus drei Strängen. Wasserstoffbrücken sind gestrichelt eingezeichnet. Die Struktur ist als Stäbchenmodell dargestellt.

Im Proteininneren sind die β-Faltblätter meist parallel. An der Proteinoberfläche sind sie häufig antiparallel. Dort ragen die Aminosäurereste der einen Seite in die (hydrophile) Umgebung, während die der anderen zum hydrophoben Kern hin ausgerichtet sind. Hieraus ergibt sich im Idealfall in der Sequenz ein charakteristischer Wechsel von hydrophilen und hydrophoben Aminosäuren.

1.13 Supersekundärstrukturelemente

Die regulären Strukturen der Hauptkette werden ausgebildet, weil sie energetisch günstig sind. Sie bilden häufig Aggregate, die als Supersekundärstrukturelemente bezeichnet werden. So besteht der klassische Faltungstyp des (βα)₈-Fasses beispielsweise aus 8 (βα)-Einheiten, die rotationssymmetrisch zur Mittelachse angeordnet sind. Die 8 β-Stränge bilden eine fassartige Struktur, die außen von den α-Helices bedeckt wird. Das in Abb. 1.11 gezeigte Enzym HisF ist an der Histidinbiosynthese beteiligt. Die oben beschriebene, ideale Struktur wird hier durch weitere Sekundärstrukturelemente ergänzt. Die Topologie des (βα)₈-Fasses kommt in vielen Enzymfamilien vor, die völlig unterschiedliche Reaktionen katalysieren. Aus dieser breiten Verteilung auf völlig unterschiedliche Stoffwechselwege wurde gefolgert, dass dieser Faltungstyp bereits sehr früh in der Protein-Evolution entstand [26]. Ausführlich wird diese Faltungstopologie in [27] und [28] beschrieben.

Abb. 1.11 Das (βα)₈-Fass-Protein HisF. Beim Faltungstyp der (βα)₈

	`Leserichtung →`
	`\|.....ORF.....\|`
`Leserahmen 1`	`..MetValGlyLeuSer***`
`2`	`.TyrGlyArgProGluLeu.`
`3`	`ValTrpSerAla***Val..`
`DNA,`	`GTATGGTCGGCCTGAGTTAA`
`(Doppelstrang)`	`CATACCAGCCGGACTCAATT`
`Leserahmen 4`	`..HisAspAlaGlnThrLeu`
`5`	`.IleThrProArgLeu***.`
`6`	`TyrProArgGlySerAsn..`
	`← Leserichtung`