Inhaltsverzeichnis
Vorwort
Website
Grundlagen – Biologie und Datenbanken
1 Biologische Grundlagen
1.1 DNA
1.2 Genetischer Code und Genomkomposition
1.3 Transkription
1.4 RNA
1.5 Proteine
1.6 Peptidbindung
1.7 Konformation von Aminosäureseitenketten
1.8 Ramachandran-Plot
1.9 Hierarchische Beschreibung von Proteinstrukturen
1.10 Sekundärstrukturelemente
1.11 α-Helix
1.12 β-Faltblätter
1.13 Supersekundärstrukturelemente
1.14 Protein-Domänen
1.15 Proteinfamilien
1.16 Fachbegriffe
1.17 Zitierte Literatur
2 Sequenzen und ihre Funktion
2.1 Definitionen und Operatoren
2.2 DNA-Sequenzen
2.3 Proteinsequenzen
2.4 Vergleich der Sequenzkomposition
2.5 Ontologien
2.6 Semantische Ähnlichkeit von GO-Termen
2.7 Zitierte Literatur
3 Datenbanken
3.1 DNA-Sequenz-Datenbanken
3.2 RNA-Sequenz-Datenbanken
3.3 Proteinsequenz-Datenbanken
3.4 Proteinstruktur-Datenbanken
3.5 SMART: Analyse der Domänenarchitektur
3.6 STRING: Proteine und ihre Interaktionen
3.7 SCOP: Strukturelle Klassifikation von Proteinen
3.8 Pfam: Kompilation von Proteinfamilien
3.9 COG und eggNOG: Gruppen orthologer Gene
3.10 Weitere Datenbanken
3.11 Zitierte Literatur
Lernen, Optimieren und Entscheiden
4 Grundbegriffe der Stochastik
4.1 Grundbegriffe der beschreibenden Statistik
4.2 Urnenexperimente und diskrete Verteilungen
4.3 Die Kolmogoroffschen Axiome
4.4 Bedingte Wahrscheinlichkeit und Unabhängigkeit
4.5 Zufallselemente
4.6 Unabhängigkeit von Zufallselementen
4.7 Markov-Ketten
4.8 Erwartungswerte
4.9 Varianzen
4.10 Wichtige Wahrscheinlichkeitsverteilungen
4.11 Schätzer
4.12 Grundlagen statistischer Tests
4.13 Eine optimale Entscheidungstheorie: Die Neyman-Pearson-Methode
4.14 Zitierte Literatur
5 Bayessche Entscheidungstheorie und Klassifikatoren
5.1 Bayessche Entscheidungstheorie
5.2 Marginalisieren
5.3 Boosting
5.4 ROC-Kurven
5.5 Testmethoden für kleine Trainingsmengen
5.6 Zitierte Literatur
6 Klassische Cluster- und Klassifikationsverfahren
6.1 Metriken und Clusteranalyse
6.2 Das mittlere Fehlerquadrat als Gütemaß bei Clusteralgorithmen
6.3 Ein einfaches iteratives Clusterverfahren
6.4 k-Means-Clusterverfahren
6.5 Hierarchische Clusterverfahren
6.6 Nächster-Nachbar-Klassifikation
6.7 k nächste Nachbarn
6.8 Zitierte Literatur
7 Neuronale Netze
7.1 Architektur von neuronalen Netzen
7.2 Das Perzeptron
7.3 Lösbarkeit von Klassifikationsaufgaben
7.4 Universelle Approximation
7.5 Lernen in neuronalen Netzen
7.6 Codierung der Eingabe
7.7 Selbstorganisierende Karten
7.8 Zitierte Literatur
8 Genetische Algorithmen
8.1 Objekte und Funktionen
8.2 Algorithmus
8.3 Der Begriff des Schemas
8.4 Dynamik der Anzahl von Schemata
8.5 Codierung der Problemstellung
8.6 Genetisches Programmieren
8.7 Zitierte Literatur
Algorithmen und Modelle der Bioinformatik
9 Paarweiser Sequenzvergleich
9.1 Dotplots
9.2 Entwicklung eines optimalen Alignmentverfahrens
9.3 Levenshtein-Distanz
9.4 Bestimmen der Ähnlichkeit von Sequenzen
9.5 Optimales Bewerten von Lücken
9.6 Namensgebung
9.7 Zitierte Literatur
10 Sequenz-Motive
10.1 Signaturen
10.2 Die PROSITE-Datenbank
10.3 Die BLOCKS-Datenbank
10.4 Sequenz-Profile
10.5 Bestimmen von Scores für Promotor-Sequenzen
10.6 Sequenz-Logos
10.7 Konsensus-Sequenzen
10.8 Sequenzen niedriger Komplexität
10.9 Der SEG-Algorithmus
10.10 Zitierte Literatur
11 Scoring-Schemata
11.1 Zur Theorie von Scoring-Matrizen
11.2 Algorithmen bedingte Anforderung an Scoring-Matrizen
11.3 Identitätsmatrizen
11.4 PAM-Einheit
11.5 PAM-Matrizen
11.6 Erweiterte Datenbasis: Die JTT-Matrix
11.7 BLOSUM-Matrizen
11.8 Matrix-Entropie
11.9 Scoring-Schemata und Anwendungen
11.10 Scoring-Funktionen
11.11 Zitierte Literatur
12 FASTA, BLAST, PSI-BLAST
12.1 FASTA
12.2 FASTA-Statistik
12.3 BLAST
12.4 Statistik von Alignments
12.5 Vergleich der Empfindlichkeit von FASTA und BLAST
12.6 Verfeinerung der Algorithmen
12.7 Profil basierter Sequenzvergleich
12.8 Verwenden von Intermediärsequenzen
12.9 PSI-BLAST
12.10 Die Empfindlichkeit von Sequenzvergleichsmethoden
12.11 Vergleich von Profilen und Konsensus-Sequenzen
12.12 Zitierte Literatur
13 Multiple Sequenzalignments
13.1 Berechnen von Scores für multiple Sequenzalignments
13.2 Iteratives, progressives Bestimmen eines multiplen Alignments
13.3 ClustalW: Konzepte
13.4 ClustalW: Algorithmus
13.5 ClustalW: Multiples Sequenzalignment für Trypsin-Inhibitoren
13.6 T-Coffee
13.7 M-Coffee und 3D-Coffee
13.8 Alternative Ansätze
13.9 Verwenden von MSAs zur Charakterisierung von Residuen
13.10 Alignment von DNA- und RNA-Sequenzen
13.11 Zitierte Literatur
14 Grundlagen phylogenetischer Analysen
14.1 Phylogenetische Ansätze
14.2 Distanz basierte Verfahren
14.3 Linkage-Algorithmen
14.4 Der Neighbour-Joining-Algorithmus
14.5 Parsimony-Methoden
14.6 Konstruktion eines Parsimony-Baumes
14.7 Maximum-Likelihood-Ansätze
14.8 Grundannahmen phylogenetischer Algorithmen
14.9 Phylogenetische Analyse und statistische Bewertung
14.10 Weitere phylogenetische Ansätze und Resultate
14.11 Zitierte Literatur
15 Hidden-Markov-Modelle
15.1 Eine Problem orientierte Einführung
15.2 Markov-Modelle
15.3 Ergodische Markovsche Ketten
15.4 Niveau und Macht einfacher Tests
15.5 Exkurs: Grenzwertsätze
15.6 Diskrimination von CpG-Inseln
15.7 Ansätze zur Lokalisierung von CpG-Inseln
15.8 Der Begriff des Hidden-Markov-Modells
15.9 Wichtige Algorithmen für HMMs
15.10 Das zeitweise unehrliche Casino
15.11 Das Rekonstruktionsproblem für HMMs
15.12 Zitierte Literatur
16 Profil-HMMs zur Modellierung von Proteinfamilien
16.1 Profil-HMMs
16.2 Viterbi-Pfade in Profil-HMMs
16.3 Eine Lösung des Anfrageproblems
16.4 Vorwärts- und Rückwärtsvariablen
16.5 Vom MSA zum Profil-HMM
16.6 Zitierte Literatur
17 Bedingte Markovsche Zufallsfelder
17.1 Markierungsprobleme und ME-Prinzip
17.2 Der Satz von Hammersley und Clifford
17.3 IIS-Algorithmus
17.4 Linien-CRFs
17.5 Zitierte Literatur
18 Vorhersage der Sekundärstruktur
18.1 Vorhersage der Proteinsekundärstruktur
18.2 Vorhersage der RNA-Sekundärstruktur
18.3 Zitierte Literatur
19 Vergleich von Protein-3D-Strukturen
19.1 Vergleich zweier Protein-3D-Strukturen
19.2 Superposition von Protein-3D-Strukturen
19.3 SAP: Vergleich von 3D-Strukturen mithilfe von Vektorbündeln
19.4 Simulated Annealing
19.5 Superposition mithilfe von DALI
19.6 TM-Align
19.7 Zitierte Literatur
20 Homologiemodellierung und Vorhersage der Protein-3D-Struktur
20.1 Verwenden von Threading-Verfahren
20.2 Eine Profil-Methode: 3D-1D-Profile
20.3 Wissensbasierte Kraftfelder
20.4 GenThreader
20.5 3D-PSSM
20.6 HHsearch
20.7 ROSETTA/ROBETTA
20.8 Weitere Ansätze
20.9 Zitierte Literatur
21 Analyse integraler Membranproteine
21.1 Struktur integraler Membranproteine
21.2 Spezifische Probleme beim Sequenzvergleich
21.3 Vorhersage der Topologie von Helix-Bündeln
21.4 Vorhersage der Topologie und Struktur von β-Fässern
21.5 Gegenwärtiger Stand bioinformatischer Methoden
21.6 Zitierte Literatur
22 Entschlüsselung von Genomen
22.1 Shotgun-Sequenzierung
22.2 Die Anzahl von Contigs beim Shotgun-Ansatz
22.3 Basecalling
22.4 Assemblieren von Teilsequenzen
22.5 Annotation kompletter Genome
22.6 Metagenomik
22.7 Zitierte Literatur
23 Auswertung von Genexpressionsdaten
23.1 DNA-Chip-Technologie
23.2 Bioinformatische Analyse von DNA-Chip-Signalen
23.3 Identifizieren differentiell exprimierter Gene
23.4 Metriken zum Vergleich von Expressionsdaten
23.5 Algorithmen für die Analyse kompletter DNA-Chip-Datensätze
23.6 Hauptkomponentenanalyse
23.7 Biclusterverfahren
23.8 Grenzen und Alternativen
23.9 Genexpressions-Profiling
23.10 Wärmekarten
23.11 Informationsgewinnung für systembiologische Fragestellungen
23.12 Zitierte Literatur
24 Analyse von Protein-Protein-Interaktionen
24.1 Biologische Bedeutung des Interaktoms
24.2 Methoden zum Bestimmen des Interaktoms
24.3 Anforderungen an Datenbanksysteme
24.4 Analyse des Genominhaltes
24.5 Bewertung von Codon-Häufigkeiten
24.6 Suche nach korrelierten Mutationen
24.7 Vergleich phylogenetischer Bäume
24.8 Vorhersage des Interaktoms der Hefe mithilfe eines Bayesschen Klassifikators
24.9 Zitierte Literatur
25 Zum Schluss
25.1 Zitierte Literatur
Stichwortverzeichnis
Beachten Sie bitte auch weitere interessante Titel zu diesem Thema
Helms, V.
Principles of Computational Cell Biology
From Protein Complexes to Cellular Networks
2008
ISBN: 978-3-527-31555-0
Ziegler, A., Koenig, I. R., Pahlke, F.
A Statistical Approach to Genetic Epidemiology
Second, Completely Revised and Enlarged Edition
2009
ISBN: 978-3-527-32389-0
Dehmer, M., Emmert-Streib, F. (Hrsg.)
Analysis of Complex Networks
From Biology to Linguistics
2009
ISBN: 978-3-527-32345-6
Emmert-Streib, F., Dehmer, M. (Hrsg.)
Analysis of Microarray Data
A Network-Based Approach
2008
ISBN: 978-3-527-31822-3
Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., Walter, P.
Molekularbiologie der Zelle
2008
ISBN: 978-3-527-30492-9
Autoren
PD Dr. Rainer Merkl
Institut für Biophysik
und Physikalische Biochemie
Universität Regensburg
Universitätsstraße 31
93053 Regensburg
Prof. Dr. Stephan Waack
Institut für Informatik
Georg-August-Universität
Goldschmidtstraße 7
37077 Göttingen
2. erw. u. neubearb. Auflage 2009
Alle Bücher von Wiley-VCH werden sorgfältig erarbeitet. Dennoch übernehmen Autoren, Herausgeber und Verlag in keinem Fall, einschließlich des vorliegenden Werkes, für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie für eventuelle Druckfehler irgendeine Haftung.
Bibliografische Information
der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
© 2009 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
Alle Rechte, insbesondere die der Übersetzung in andere Sprachen, vorbehalten. Kein Teil dieses Buches darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form – durch Photokopie, Mikroverfilmung oder irgendein anderes Verfahren – reproduziert oder in eine von Maschinen, insbesondere von Datenverarbeitungsmaschinen, verwendbare Sprache übertragen oder übersetzt werden. Die Wiedergabe von Warenbezeichnungen, Handelsnamen oder sonstigen Kennzeichen in diesem Buch berechtigt nicht zu der Annahme, dass diese von jedermann frei benutzt werden dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich geschützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind.
Satz Hagedorn Kommunikation GmbH, Viernheim
Druck Strauss GmbH, Mörlenbach
Bindung Litges & Dopf GmbH, Heppenheim
Umschlaggestaltung Adam Design, Weinheim
ISBN: 978-3-527-32594-8
Eine attraktive Webseite mit Zusatzmaterial sowie Fragen und Übungen zum Stoff finden Sie auf
www.wiley-vch.de/home/bioinformatik
Vorwort
Im vergangenen Jahrhundert hat sich in der biologischen Forschung der reduktionistische Ansatz als besonders erfolgreich erwiesen. Damit ist der Versuch gemeint, komplexe Lebensphänomene als vernetztes Zusammenwirken einfacher, in der Sprache der Physik oder Chemie beschriebener Vorgänge zu verstehen. Allerdings ist mittlerweile klar geworden, dass Lebensvorgänge mit solchen top down Ansätzen, d. h. der Zerlegung komplexer Vorgänge in einfachere, nicht vollständig zu verstehen sind. Daher gewinnen bottom up Ansätze zunehmend an Bedeutung. Diese versuchen, das Zusammenspiel der einzelnen Elemente in ihrer Gesamtheit zu modellieren. Die vielen „-omik“-Ansätze und die Konzepte der Systembiologie zielen genau in diese Richtung. So sind die Ergebnisse der Genomik und der Transkriptomik mittlerweile zu einer festen Größe und zu einer wichtigen Quelle für weiterführende Analyen und überraschende Einsichten geworden. Drei Beispiele sollen dies verdeutlichen:
Die Sequenzierung des menschlichen Genoms hat gezeigt, dass der Mensch nicht, wie bisher angenommen, bis zu 100 000 Gene, sondern nur 20 000–30 000 besitzt. Diese Anzahl liegt nicht wesentlich höher als die des Fadenwurms Caenorhabditis elegans, dessen Genom ca. 20 000 Gene umfasst. Dieses Ergebnis war für viele Wissenschaftler ein Schock, da bis dato genetische Komplexität direkt mit der Anzahl von Genen korreliert worden war. Der Befund hat einen Paradigmenwechsel ausgelöst; seither wird die Komplexität eines biologischen Systems an der Komplexität seiner Interaktionsnetzwerke gemessen.
Das ENCODE-Projekt zielt darauf ab, alle funktionellen Elemente des menschlichen Genoms zu identifizieren. In der Pilotphase wurde überraschenderweise festgestellt, dass praktisch das komplette menschliche Genom abgelesen und in RNA übersetzt wird. Es wird angenommen, dass viele dieser Moleküle in bisher unbekannter Weise in Regulationsvorgänge eingreifen.
Die Sequenzierung des Schnabeltier-Genoms hat unter anderem ergeben, dass diese Art, obwohl sie Eier legt, die Gene für Milchproteine besitzt. Ihre Gift-Proteine und die Schlangengifte stammen von denselben Genfamilien ab, haben sich allerdings unabhängig entwickelt. Aus dem Vergleich molekularer Daten wurde abgeleitet, dass sich der Vorfahre des Schnabeltiers vor ca. 166 Millionen Jahren von der Linie abspaltete, die später zu den Säugetieren führte.
Wie werden derartige Befunde erhoben? Die für die Datenanalyse notwendigen Werkzeuge liefert die Bioinformatik, ein spezieller Zweig der Computerwissenschaft, der sich seit Mitte des zwanzigsten Jahrhunderts zunächst kontinuierlich und in den letzten Jahren rasant entwickelte. Zu den ersten, eher bescheidenen Aufgaben, die Biologen an Mathematiker und Informatiker herantrugen, gehÇrten die statistische Auswertung der wenigen, damals vorhandenen Sequenzen und deren Speicherung. Heutzutage werden sowohl für das Vorhalten der exponentiell wachsenden Datenmengen als auch für den Betrieb hochkomplexer Programmsuiten leistungsfähige Server-Farmen benötigt. Der Aufwand, der auf technischer und theoretischer Seite getrieben werden muss, um den berechtigten Ansprüchen und Forderungen der Anwender zu genügen, ist enorm, bleibt aber meist hinter einfach zu bedienenden Grafikoberflächen verborgen. Ebenso unbekannt ist den Nutzern häufig auch der Algorithmus, d. h. die Rechenvorschrift, die mit einem Mausklick angestoßen wird, sowie die Bedeutung der Programmparameter und deren Einfluss auf die Ergebnisse. Dies ist umso erstaunlicher, wenn man den Aufwand bedenkt, der üblicherweise für die Planung molekularbiologischer Experimente getrieben wird. Es wäre zu erwarten, dass bei der Ausführung bioinformatischer Analysen ähnlich gründlich vorgegangen würde.
Für einen sicheren und souveränen Umgang mit bioinformatischen Tools sind derartige Kenntnisse jedoch unbedingt erforderlich. Nur wer die Eigenschaften und vor allem die Limitationen der Werkzeuge kennt, kann sie optimal einsetzen, ihre Ausgabe korrekt bewerten und die Algorithmen verbessern. Daher ist eine Beschäftigung mit den grundlegenden Methoden und speziellen Konzepten, die sich in der Bioinformatik entwickelt haben, für den Anwender sinnvoll und für diejenigen, die selbst bioinformatische Werkzeuge entwickeln wollen, unbedingte Voraussetzung.
Der vorliegende Text will eine Übersicht zu den wichtigsten Methoden und Lösungsansätzen vermitteln. Einen großen Anteil nehmen Verfahren ein, die sich der Analyse von Sequenzen widmen, da sie die größten Datenbestände ausmachen. Es wurde großer Wert auf eine praxisnahe Darstellung gelegt, in die viele Beispiele und Illustrationen eingestreut sind. Zusätzlich wird auf einer Webseite Material für Übungen angeboten. Auch bei der Zusammenstellung der Übungen war es unser Ziel, den kritischen Umgang mit bioinformatischen Tools zu trainieren.
Diese zweite Auflage wäre ohne die Mithilfe und die Anregungen vieler unserer Kollegen und Studenten nicht zu realisieren gewesen. Unser besonderer Dank gilt dem Verlag Wiley-VCH und insbesondere den Herren Dr. G. Cicchetti und Dr. A. Sendtko, die uns in allen Belangen stets tatkräftig unterstützten.
Regensburg und Göttingen,
Oktober 2009
Rainer Merkl und
Stephan Waack
Website
Auf einer speziellen Website werden Übungen angeboten, die interaktiv unter Verwendung eines Browsers und mithilfe frei verfügbarer Software, sowie unter Benutzung öffentlich zugänglicher Server bearbeitet werden können. Verweise auf die wichtigsten Lerneinheiten sind bei den folgenden Kapiteln angegeben. Die Übungen haben einerseits das Ziel, das Erfassen der Algorithmen und Modelle weiter zu festigen und erlauben es andrerseits, Werkzeuge in konkreten Anwendungen praktisch zu erproben. Wir bemühen uns, das Angebot der Dynamik des Internets anzupassen. Das Übungsmaterial finden Sie auf
http://www.wiley-vch.de/home/bioinformatik
Die Beschäftigung mit Algorithmen kann faszinieren. Dies gilt insbesondere dann, wenn komplexe und spannende Probleme zu lÇsen sind. Zu dieser Kategorie von Aufgaben zählen sicherlich auch diejenigen, die an die Bioinformatik herangetragen werden. Häufig müssen aus einer schier nicht zu bewältigenden Datenfülle verrauschte Signale herausgefiltert werden. Nur durch den Einsatz modernster Techniken und unter Berücksichtigung von Erkenntnissen aus der Mathematik, der Statistik und natürlich der Informatik ist es möglich, bioinformatische Algorithmenentwicklung voranzutreiben. Zusätzlich ist eine gewisse Vertrautheit mit den biologischen Strukturen und dynamischen Prozessen, die im Rechner nachzustellen sind, notwendig und hilfreich. Diese Grundlagen schaffen wir in Teil 1. Im folgenden Kapitel werden wichtige Eigenschaften von DNA, RNA, Aminosäuren und Proteinen erläutert sowie solche Fakten zu biologischen Objekten und Prozessen eingeführt, die für das Verständnis der im Text dargestellten biologischen Fragestellungen und informatischen Lösungsansätze benötigt werden.
Informationstragende Moleküle: DNA, RNA, Proteine
Anschließend wird die Datenstruktur Sequenz mit der in der Biologie eingeführten Bedeutung vorgestellt. Wir werden uns mit Operationen auf Sequenzen sowie verschiedenen Alphabeten, die zur Codierung von DNA- und Proteinsequenzen definiert wurden, beschäftigen. Sequenzen bilden die Grundlage für viele der hier eingeführten Algorithmen; sie werden uns im gesamten Text ständig begegnen. Die uns interessierenden Sequenzen haben eine biologische Funktion. Für deren Beschreibung werden zunehmend Ontologien genutzt. Wir erläutern die Gen-Ontologie, mit der Genprodukte annotiert werden.muckel
Sequenzen und ihre Funktion
Schließlich beschäftigen wir uns mit bioinformatischen Datenbanken. So werden z. B. Sequenzen oder Proteinstrukturen sowie Wissen über ihre biologische Funktion, ihre Eigenschaften, ihr Vorkommen etc. in zentralen Datenbanken gesammelt. Diese stellen den „Heiligen Gral“ der Bioinformatik dar. Praktisch bei jeder bioinformatischen Fragestellung wird in irgendeiner Weise auf Datenbanken und das darin deponierte Wissen zurückgegriffen. Dies kann im Rahmen so unterschiedlicher Aufgaben erfolgen wie der statistischen Auswertung von Sequenzen, dem Vermessen von Reaktionszentren, der Identifizierung von Transkriptionsfaktoren oder der Analyse von Hochdurchsatz-Datensätzen. Datenbanken bilden auch die Grundlage für das Generieren von Trainingsmengen, die benötigt werden, um bioinformatische Werkzeuge zu validieren und zu optimieren. Die Qualität bioinformatischer Algorithmen, d. h. deren Ausgabe, muss sich messen lassen an den in den Datenbanken deponierten und durch biochemische Experimente abgesicherten Fakten.
Bioinformatische Datenbanken
Zusätzlich zu Sequenz- und Strukturdatenbanken ist eine Fülle weiterer Datensammlungen entstanden. Wir werden einige der sogenannten sekundären Datenbanken, in denen abgeleitetes Wissen aufbereitet wird, vorstellen. Dazu zählen Beschreibungen von Stoffwechselvorgängen oder hierarchische Schemata zur Klassifikation von Proteinfamilien.
In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.
Drei wichtige Makromoleküle: DNA, RNA, Proteine
Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.
In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.
Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus
Nucleotid
In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).
Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.
Reverses Komplement: Sequenz des Gegenstranges
Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).
Basentriplett
Codon
Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.
Leseraster
ORF
Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:
Beispiel
Leserichtung → |
|
|.....ORF.....| |
|
Leserahmen 1 |
..MetValGlyLeuSer*** |
2 |
.TyrGlyArgProGluLeu. |
3 |
ValTrpSerAla***Val.. |
DNA, |
GTATGGTCGGCCTGAGTTAA |
(Doppelstrang) |
CATACCAGCCGGACTCAATT |
Leserahmen 4 |
..HisAspAlaGlnThrLeu |
5 |
.IleThrProArgLeu***. |
6 |
TyrProArgGlySerAsn.. |
← Leserichtung |
Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.
Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.
Informationsgehalt der Basenpositionen ist unterschiedlich
Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach A:T-Basenpaaren [7]. Die Genprodukte beider Gene sind an der DNA-Replikation bzw. DNA-Reparatur beteiligt.
GC-Gehalt der Genome ist phylogenetisch bedingt
Codonen kommen nicht mit annähernd gleicher Häufigkeit in Genen vor. Im Gegenteil, die Codonhäufigkeiten schwanken zwischen den taxonomischen Gruppen beträchtlich. Die Codonpräferenzen der beiden nahe verwandten Bakterien Escherichia coli und Salmonella typhimurium sind sich relativ ähnlich, Codonhäufigkeiten des Bakteriums Bacillus subtilis, das zu beiden eine große phylogenetische Distanz aufweist, sind auffällig anders.
Codonhäufigkeiten
Codonen, die für dieselbe Aminosäure codieren, werden synonyme Codonen genannt. Synonyme Codonen treten ebenfalls nicht mit vergleichbarer Häufigkeit auf, einige werden bevorzugt eingebaut. Daraus resultierende Unterschiede in der Häufigkeitsverteilung von kurzen Nucleotidketten können unter Verwendung statistischer Verfahren (Markov-Ketten) ausgenutzt werden, um die Lage von Genen vorherzusagen (z. B. im Programm Glimmer[8]). In Korrelation mit den ungleichmäßigen Codonhäufigkeiten treten Unterschiede in den Spezies spezifischen tRNA-Konzentrationen auf. tRNA ist an der Translation, d. h. der RNA-instruierten Proteinsynthese, beteiligt.
Synonyme Codonen codieren für dieselbe Aminosäure
Der genetische Code wird als degeneriert (im Sinne der in der Atomphysik eingeführten Bedeutung) bezeichnet, da einige Aminosäuren durch mehrere (synonyme) Codonen codiert werden.
Bei manchen Spezies variieren Codonhäufigkeiten zudem stark zwischen einzelnen Genen [9]. In bestimmten Genen tritt Spezies spezifisch eine Teilmenge der Codonen bevorzugt auf (Übersichten in [10] und [11]). Diese Verzerrung der Codonhäufigkeiten (codon usage bias) ist positiv korreliert mit der Genexpression [12]. Mögliche Ursachen für diese Verzerrung der Codonhäufigkeiten sind die unterschiedlichen Konzentrationen der tRNAs [13, 14], die Aufrechterhaltung der maximalen Elongationsrate, die Kosten für das Korrekturlesen sowie unterschiedliche Translationsraten der Codonen [15]. Diese Verzerrung der Codonhäufigkeiten wird als „Strategie“ interpretiert, die Wachstumsraten zu optimieren [10]. Wie wir später sehen werden, sind Unterschiede in den Codonhäufigkeiten ein wichtiges Signal, das für bioinformatische Analysen genutzt wird. Bei Prokaryonten weisen Gene, die im Genom benachbart liegen, eine ähnliche codon usage auf. Es wurde gezeigt, dass aus der Ähnlichkeit von Codonhäufigkeiten eine Interaktion der Genprodukte vorhergesagt werden kann [16]. Zudem zeigen diese Befunde die komplexe Komposition codierender DNA-Sequenzen.
Bevorzugte Codonen
In Tabelle 1.2 sind die gemittelten Codonhäufigkeiten angegeben, so wie sie im Genom des Bakteriums Escherichia coli K-12 vorkommen. Auffallend selten sind in diesem Genom die Codonen AGA, AGG und CTA.
Codon usage von Escherichia coli K-12
Ganz allgemein wird das Umschreiben eines Textes Transkription genannt. In Analogie hierzu wird die Produktion von mRNA als Kopie eines Genabschnittes ebenso bezeichnet. Die für die Transkription notwendigen Enzyme sind die DNA-abhängigen RNA-Polymerasen. Bei der Transkription wird, anstelle von T (Thymin), in die mRNA das Nucleotid U (Uracil) eingebaut. Das RNA-Molekül, das hierbei entsteht, wird Transkript genannt.
Bei der RNA-Synthese müssen zwei Bedingungen eingehalten werden:
Bedingungen bei der RNA-Synthese
Das Einhalten dieser Bedingungen wird erreicht durch die bevorzugte Bindung von RNA-Polymerase an Erkennungsstellen (Promotoren), die unmittelbar vor Genen liegen.
Promotoren markieren Beginn des Transkriptes
Vergleicht man die Promotoren von Escherichia coli und bildet hieraus einen „idealen Promotor“, so fällt Folgendes auf:
Abbildung 1.3 zeigt einen idealisierten Promotor; von dessen Zusammensetzung weichen bekannte Promotoren mehr oder weniger stark ab.
Für die Einleitung der Transkription ist es notwendig, dass Transkriptionsfaktoren an den Promotor oder an zusätzliche Bindestellen wie Enhancer binden. In vielen Fällen ist das genaue Zusammenwirken dieser Faktoren nicht bekannt.
DNA-Bindung von Transkriptionsfaktoren regelt RNA-Synthese
Das Identifizieren von Promotoren mittels bioinformatischer Methoden hilft, mit höherer Sicherheit Operons vorherzusagen. In prokaryontischen Genomen sind Gene häufig in Funktionseinheiten, den Operons, zusammengefasst. Diese bestehen aus einem Promotor und einer Menge von Genen. Deren Genprodukte sind meist Elemente einer größeren Funktionseinheit oder tragen zur selben Stoffwechselleistung bei. So finden sich die Gene, die an der Tryptophan-Biosynthese beteiligt sind, in einem Operon.
Operon = Funktionseinheit
Bei höheren Eukaryonten kennt man nur für einen kleinen Bruchteil des Genoms die genaue Funktion [18]. Zu den Genomabschnitten mit bekannter Funktion gehören regulatorische Elemente wie Promotoren sowie die Gene, die für Proteine oder bestimmte RNA-Spezies codieren. Für die RNA war bisher eine Funktion als Transfer-RNA, als Komponente von Ribosomen (ribosomale RNA) oder von Spleißosomen gesichert. Der erheblich größere Rest des Genoms wurde häufig als Junk-DNA bezeichnet. Jüngste, genomweite Experimente im Rahmen des ENCODE-Projektes haben jedoch gezeigt, dass Tausende, nicht für Proteine codierende Transkripte (ncRNAs) existieren, deren Bedeutung unklar ist. Diese Ergebnisse belegen für das Genom des Menschen [19] und der Maus, dass der größte Teil transkribiert wird. ncRNAs werden in kleine interferierende RNAs, mikro-RNAs und lange ncRNAs eingeteilt. Letztere haben eine Länge von mehr als 200 Nucleotiden und stellen den größten Anteil. Für diese RNA-Moleküle ist eine Beteiligung an der Organisation der Genomarchitektur und der Genexpression plausibel. Kleine RNA-Moleküle sind an einer Vielzahl von posttranskriptionalen silencing-Mechanismen beteiligt. Diese Prozesse zerstören mRNA-Moleküle, sodass kein Genprodukt (in der Regel ein Protein) gebildet werden kann.
Die Funktion der meisten RNA-Moleküle ist unbekannt
Proteine sind ebenfalls lineare Makromoleküle; Bausteine sind in diesem Fall die 20 natürlich vorkommenden Aminosäuren. Der Aufbau dieser Molekülfamilie ist einheitlich und besteht aus einem, in allen Aminosäuren identischen, sowie einem variablen Teil, der häufig auch Aminosäurerest genannt wird (siehe Abb. 1.4). Form und Art dieses Restes beeinflussen die Wechselwirkungen zwischen den Bausteinen. Die wichtigsten Wechselwirkungen sind Wasserstoffbrückenbindungen zwischen polaren Seitenketten.
Aufgrund des unterschiedlichen Aufbaus der Seitenkette haben die Aminosäuren voneinander abweichende physikalisch-chemische Eigenschaften. Sie lassen sich z. B. bezüglich der ionischen Ladung in die Gruppen basisch, sauer und neutral einteilen. Unter den neutralen Aminosäuren, die keine elektrische Gesamtladung tragen, finden sich wiederum polare, d. h. solche, die innerhalb des Moleküls eine unterschiedliche Ladungsverteilung aufweisen. Apolare, neutrale Aminosäuren sind hydrophob (Wasser abstoßend). Sie tendieren dazu, untereinander und mit anderen hydrophoben Gruppen zu interagieren. Mit hydrophil werden Moleküle bezeichnet, die gut wasserlöslich sind. Ein Spezialfall ist Prolin, eine zyklische Iminosäure. Nach der Ausbildung der Peptidbindung steht in dieser Aminosäure kein Wasserstoff mehr zur Ausbildung von Wasserstoffbrückenbindungen zur Verfügung. Diese Eigenart hat erheblichen Einfluss auf die Proteinstruktur.
Struktur von Aminosäuren
Natur der Aminosäuren: basisch, sauer, neutral, polar, hydrophil, hydrophob
Die Häufigkeiten, mit denen die 20 Aminosäuren in Proteinen vorkommen, unterscheiden sich deutlich. In Tabelle 1.3 ist das mittlere Vorkommen gelistet.
Die in Abb. 1.5 dargestellten Verwandtschaftsbeziehungen aufgrund physikalischer und chemischer Eigenschaften der Aminosäuren sind die Grundlage für viele Sequenzvergleichs- und Alignmentverfahren. Hierfür werden Scoring-Matrizen benötigt, die wiederum aus Substitutionshäufigkeiten bestimmt werden. Diese Häufigkeiten werden aus dem Vergleich einer Vielzahl ähnlicher Proteine ermittelt und spiegeln gemeinsame Eigenschaften von Aminosäuren wider. Auf die angesprochenen Verfahren und Daten gehen wir in den folgenden Kapiteln genauer ein.
Gruppierung hinsichtlich physikalisch-chemischer Eigenschaften
Proteine sind Polypeptidketten, die aus Aminosäuren synthetisiert werden. Bei der Synthese wird die Carboxylgruppe (COOH) der einen Aminosäure mit der Aminogruppe (NH2) des Nachbarn durch eine kovalente Bindung (Peptid-Bindung) verknüpft. Jede Polypeptidkette beliebiger Länge hat ein freies Amino-Ende (N-Terminus) und ein freies Carboxyl-Ende (C-Terminus). Die Richtung einer Kette ist definiert als vom N-Terminus zum C-Terminus zeigend. Diese Richtung stimmt überein mit der Syntheserichtung in vivo, die mit dem Ablesen der mRNA in 5′- 3′-Richtung korrespondiert.
Die an der Peptidbindung beteiligten Atome liegen jeweils starr in einer Ebene. Daher wird der Hauptkettenverlauf einer Polypeptidkette durch die Angabe von zwei Winkeln (Φ, Ψ) pro Residuum beschrieben. Diese Winkel geben die Drehung der beiden am Hauptkettenverlauf beteiligten Bindungen des zentralen Cα-Atoms jeder Aminosäure an. Beide Winkel unterliegen weiteren Einschränkungen, die sich aus der Natur des jeweiligen Aminosäurerestes herleiten. Die Rigidität der Peptidbindung und die sterische Hinderung zwischen Haupt- und Seitenkette tragen zur Stabilisierung der Proteinkonformation bei. Das erste Kohlenstoffatom, das im Rest auf das Cα-Atom folgt, wird Cβ-Atom genannt. In Abb. 1.6 ist die Situation illustriert. Der Hauptkettenverlauf dient häufig dazu, Faltungstypen von Proteinen zu charakterisieren und zu vergleichen. Die Hauptkette heißt im Englischen backbone.
Φ-, Ψ-Winkel Hauptkette
Die Aminosäuren unterscheiden sich in der Art ihrer Seitenketten. Diese sind unterschiedlich lang und von verschiedener chemischer Natur. Jede Seitenkette kann eine von mehreren Konformationen einnehmen, die auf die Rotationsmöglichkeiten der Atombindungen zurückzuführen sind. Jede Konformation wird durch die Rotationswinkel beschrieben, die an den drehbaren Bindungen auftreten. Für die Zwecke des Proteindesigns, d. h. die rechnergestützte Modellierung, wird aus Komplexitätsgründen eine beschränkte Menge aller möglicher Seitenkettenkonformationen betrachtet, die Rotamere genannt werden. Diese sind in Bibliotheken zusammengefasst [22], [23] und enthalten diejenigen Konformationen, die in Proteinen häufig vorkommen. Aufgrund der unterschiedlichen Anzahl rotierbarer Atombindungen ist die Dimension des Konformationsraumes abhängig von der betrachteten Aminosäure: Da die Seitenketten von Glycin und Alanin keine rotierbaren Bindungen aufweisen, genügt es, diese beiden Aminosäuren jeweils durch ein Rotamer zu repräsentieren. Die Seitenketten von Arginin und Lysin sind hingegen lang gestreckt. Mit vier rotierbaren Bindungen und drei energetisch günstigen Winkeln pro Bindung resultieren jeweils 81 Rotamere. Beispiele für Rotamere sind in Abb. 1.7 zusammengefasst. Die Menge der heute bekannten Proteinstrukturen erlaubt es, die Rotamerverteilungen in Abhängigkeit von den Φ- und Ψ-Winkeln der Hauptkette zu bestimmen. Solche Hauptketten spezifischen (backbone dependent) Bibliotheken [24], [25] verbessern die Modellierungsleistung beim Proteindesign.
Konformation der Rotamere: Aminosäuren spezifisch bestimmte Bibliotheken
In Polypeptidketten sind nicht alle möglichen Kombinationen von Φ- und Ψ-Winkeln gleich häufig. Wird die Verteilung dieser Winkel aus einer größeren Anzahl von Proteinen ermittelt, so ergeben sich die in der Abb. 1.8 gezeigten Präferenzen. Dieser Befund macht klar, dass im Konformationsraum nur drei Bereiche stärker besetzt sind. In idealisierter Weise fallen Residuen aus rechtsgängigen α-Helices in den Bereich von (−57°, −47°), während solche aus linksgängigen Helices bei (+57°, +47°) liegen. Residuen aus parallelen β-Faltblättern haben (Φ, Ψ)-Winkelkombinationen von ca. (−119°, −113°), während diejenigen aus antiparallelen Blättern bei (−139°, +135°) zu finden sind. Werden für sämtliche Residuen eines Proteins die (Φ, Ψ)-Winkel bestimmt, so liegen häufig einige Paare abseits der Maxima. Dazu gehören solche von Glycin-Resten. Der Einbau von Glycin bewirkt eine scharfe Wendung des Hauptkettenverlaufs. Diese Darstellung der Winkelkombinationen wird nach ihrem Entwickler Ramachandran-Plot genannt. Die erwähnten Sekundärstrukturelemente werden im folgenden Text genauer erläutert.
Ramachandran-Plot: Verteilung der (Φ, Ψ)-Winkel
Die Eigenschaften der Seitenketten bestimmen die Wechselwirkungen innerhalb des Proteins und damit dessen dreidimensionale Konformation. Dieser Konformationszustand kann auf verschiedenen Abstraktionsebenen beschrieben werden:
Beschreibung der Proteinkonformation: Primärstruktur, Sekundärstruktur, Tertiärstruktur
Und auf der Ebene der Proteine:
Wir werden Algorithmen vorstellen, die darauf abzielen, Primär-, Sekundär- und Tertiärstruktur von Proteinen zu analysieren, zu vergleichen oder vorherzusagen.
Die Grundbausteine der Proteine sind die Aminosäuren. Deren Abfolge in Proteinen definiert die Proteinsequenz, d. h. die Primärstruktur. Die nächsthöhere Abstraktionsebene, auf der Proteine beschrieben werden können, ist die der Sekundärstruktur. Sekundärstrukturelemente sind regelmäßige 3D-Substrukturen des Hauptkettenverlaufs einer Peptidkette. Bei der Klassifizierung von Sekundärstrukturelementen werden Art und Anordnung der Aminosäurereste (Seitenketten) ignoriert. Die Stabilisierung der Sekundärstruktur erfolgt über Wasserstoffbrückenbindungen zwischen den Imino- und Carbonylgruppen innerhalb der Hauptkette.
Sekundärstrukturelemente = regelmäßig angeordnete Segmente der Hauptkette
Zusätzlich zu den hier beschriebenen Bindungskräften wird die 3D-Struktur eines Proteins im Wesentlichen durch schwache, nichtkovalente Wechselwirkungen der Aminosäureseitenketten, insbesondere durch Wasserstoffbrückenbindungen zwischen polaren Resten bestimmt. Diese Wechselwirkungen spielen bei der Betrachtung der Sekundärstruktur keine Rolle. Die beiden wichtigsten Sekundärstrukturelemente sind die α-Helix und das β-Faltblatt.
Sind die (Φ, Ψ)-Winkel aufeinanderfolgender Residuen konstant, so ergeben sich helikale Strukturen. Unter diesen ist die am häufigsten vorkommende die α-Helix. In der α-Helix besteht jeweils eine Wasserstoffbrückenbindung zwischen der CO-Gruppe einer Aminosäure und der NH-Gruppe der viertnächsten. Es machen jeweils 3.6 Aminosäuren eine vollständige Drehung aus. Die Abb. 1.9 zeigt einen typischen Vertreter einer α-Helix.
Das zweite wichtige Sekundärstrukturelement ist das β-Faltblatt. Ein β-Faltblatt besteht aus einzelnen β-Strängen, die meist 5–10 Residuen lang sind (siehe Abb. 1.10). In β-Faltblättern bilden sich Wasserstoffbrückenbindungen zwischen Residuen unterschiedlicher Stränge aus. Hierbei wechselwirken die C=O-Gruppen des einen Stranges mit den NH-Gruppen des nächsten Stranges. Auf diese Weise können mehrere Stränge ein Blatt bilden. Die Cα-Atome aufeinanderfolgender Residuen kommen abwechselnd über oder unter der Ebene, die durch das Faltblatt aufgespannt wird, zum Liegen. Die Stränge können in zwei Richtungen verlaufen:
β-Faltblatt: parallele oder anti-parallele β-Stränge
Im Proteininneren sind die β-Faltblätter meist parallel. An der Proteinoberfläche sind sie häufig antiparallel. Dort ragen die Aminosäurereste der einen Seite in die (hydrophile) Umgebung, während die der anderen zum hydrophoben Kern hin ausgerichtet sind. Hieraus ergibt sich im Idealfall in der Sequenz ein charakteristischer Wechsel von hydrophilen und hydrophoben Aminosäuren.
Die regulären Strukturen der Hauptkette werden ausgebildet, weil sie energetisch günstig sind. Sie bilden häufig Aggregate, die als Supersekundärstrukturelemente bezeichnet werden. So besteht der klassische Faltungstyp des (βα)8-Fasses beispielsweise aus 8 (βα)-Einheiten, die rotationssymmetrisch zur Mittelachse angeordnet sind. Die 8 β-Stränge bilden eine fassartige Struktur, die außen von den α-Helices bedeckt wird. Das in Abb. 1.11 gezeigte Enzym HisF ist an der Histidinbiosynthese beteiligt. Die oben beschriebene, ideale Struktur wird hier durch weitere Sekundärstrukturelemente ergänzt. Die Topologie des (βα)8-Fasses kommt in vielen Enzymfamilien vor, die völlig unterschiedliche Reaktionen katalysieren. Aus dieser breiten Verteilung auf völlig unterschiedliche Stoffwechselwege wurde gefolgert, dass dieser Faltungstyp bereits sehr früh in der Protein-Evolution entstand [26]. Ausführlich wird diese Faltungstopologie in [27] und [28] beschrieben.