Einleitung
Einleitung
SNPs, Haplotypen und Assoziationsstudien
Neben der Sequenzierung des menschlichen Genoms brachten Hochdurchsatz-Techniken zur
Genotypisierung einen Durchbruch in der genetischen Erforschung komplexer Erkrankungen,
weil dadurch systematische Analysen auch von großen epidemiologischen Studien möglich
wurden. Eine herausragende Fragestellung ist hierbei die Analyse der Assoziation zwischen
Erkrankung und Kandidatengenen. Kandidatengene sind Gene, bei denen ein funktioneller
Zusammenhang mit der Erkrankung aufgrund verschiedener Kriterien vermutet wird. Hierbei
steht also die Bestätigung eines modifizierten Erkrankungsrisikos durch Varianten
des Gens und dessen Modellierung im Vordergrund. Solche Assoziationen können in populationsbasierten
Querschnittstudien nachgewiesen werden.
Bei der Genotypisierung setzt sich als Labormethode zunehmend die Untersuchung von
SNPs (Einzelbasenaustausche, Single Nucleotide Polymorphisms) durch, da diese die
am häufigsten vorkommenden DNA-Varianten sind und damit ein genaues Eingrenzen der
assoziierten DNA-Varianten möglich ist. Ein SNP ist ein Basenpaar in der DNA, das
in der untersuchten Population abweichende Ausprägungen zeigt. Ein SNP muss nicht
in kausalem Zusammenhang mit der Erkrankung stehen. Die Assoziation kann auch aufgrund
der räumlichen Nähe mit dem unbekannten Erkrankungslokus auftreten. Der SNP mit der
beobachteten Assoziation dient dann als Stellvertreter (Marker) für den Erkrankungslokus.
Beispielsweise zeigt ein AT-Polymorphismus die Ausprägungen A und T in der Bevölkerung.
Da jedem Menschen von seinen beiden Elternteilen je ein Chromosomenstrang vererbt
wird, besitzt der Mensch pro SNP zwei Allele, die im Beispiel entweder A oder T sind.
Damit gibt es drei Ausprägungsmöglichkeiten des Genotyps für einen SNP, also A/A (homozygot
A), A/T (heterozygot) und T/T (homozygot T). Hierbei ist die Reihenfolge ohne Belang,
d. h. A/T und T/A sind als Genotyp identisch, da bei der Genotypisierung nicht unterschieden
werden kann, welches Allel auf welchem Chromosomenstrang lokalisiert ist. Eine der
Ausprägungen könnte mit einer erhöhten Erkrankungswahrscheinlichkeit einhergehen.
Wenn die Erkrankung in zwei Ausprägungen (krank, nicht krank) gegeben ist, erfolgt
die Risikomodellierung durch Vergleich der Allelhäufigkeiten zwischen Fällen und Kontrollen.
Es ist schwierig, vorliegende genetische Assoziationen in epidemiologischen Studien
zu zeigen. Dies kann darin begründet sein, dass die „Power” von Assoziationsanalysen
einzelner SNPs mit einer Erkrankung nicht ausreichend war. Werden viele SNPs untersucht,
entsteht das Problem des multiplen Testens bzw. das Problem von vielen Parametern
im Modell.
Um mehr Information in den Assoziationsanalysen zu erhalten, multiples Testen zu vermeiden
und die Power zu verbessern, wird mehr und mehr Augenmerk auf Haplotypen gelegt. Die
Kombination von Allelen auf einem Chromosomenstrang nennt man Haplotyp.
Das zentrale Problem hierbei ist, dass durch die Genotypisierung im Allgemeinen nur
festgestellt werden kann, welche beiden Allele ein Individuum an einer Stelle (Locus)
der DNA aufweist; es kann jedoch nicht festgestellt werden, auf welchem Chromosomenstrang
sich die jeweiligen Allele befinden. Der Genotyp ist also beobachtbar, aber nicht
die sogenannte Phase. Betrachtet man nur einen SNP, ist die Phase nicht von Belang.
Betrachtet man jedoch zwei oder mehr SNPs, kann der Haplotyp oft nicht eindeutig bestimmt
werden, wie das folgende Beispiel zeigt: Ein Proband sei heterozygot für beide betrachteten
SNPs (ein A/T-Polymorphismus und ein C/G-Polymorphismus):
Die beobachtbaren Genotypen an den beiden SNPs sind also A/T und C/G, wobei die Reihenfolge
hier keine Information beinhaltet. Betrachtet man die oben dargestelle DNA-Sequenz,
dann ergeben sich aufgrund der Genotypen des Individuums zwei mögliche Haplotyp-Paare:
Die insgesamt vier möglichen Haplotypen an den beiden Loci können mit AC, AG, TC und
TG bezeichnet werden, wobei der Unterstrich indiziert, dass nun die Reihenfolge von
Bedeutung ist. Im Allgemeinen gibt es also für k SNPs maximal 2k mögliche Haplotypen. Ist der Proband homozygot in einem der SNPs (z. B. A/A für den
ersten SNP), reduziert sich die Anzahl der Möglichkeiten um den Faktor 2. Für den
Probanden aus dem Beispiel ist das Haplotyp-Paar (AC, TG) oder (AG, TC) möglich. Allgemein
kann das Haplotyp-Paar für Probanden, die heterozygot an mehr als einem SNP sind,
nicht eindeutig durch die Genotypen bestimmt werden.
Methoden und erste Ergebnisse
Methoden und erste Ergebnisse
Haplotyp-Rekonstruktion
Die exakten Haplotypen im Labor festzustellen, ist sehr zeitaufwändig und kostenintensiv
und deshalb nur bei wenigen Probanden praktikabel. Ein statistisches Problem ist also
die Haplotyp-Rekonstruktion aus vorgegebenen Genotypen: Die Identifizierung des wahrscheinlichsten
Haplotypen eines Individuums, dabei gegeben die Genotypen der SNPs für das Individuum.
Die Komplexität der Rekonstruktion (a) steigt mit der Anzahl der Loci, (b) mit dem
Anteil an heterozygoten Probanden, (c) ist invers zur Allelhäufigkeit und (d) invers
zum Grad der gemeinsamen Vererbung der beteiligten SNPs. Verschiedene statistische
Verfahren ermöglichen die Identifizierung der wahrscheinlichsten Haplotypen. Ein Maximum-Likelihood-Verfahren
unter Verwendung des E-M-Algorithmus (expectation-maximization) wird in [1 ] beschrieben. Ferner steht Software (PHASE, [2 ]
[3 ]) zur Verfügung, die auf einem Bayes-Verfahren beruht. Die Autoren der Originalpublikationen
führen teilweise Simulationen durch, um ihre Verfahren zu testen.
Prognosefehler
Ein Prognosefehler von 20 % wird in [1 ] beschrieben. Die Entwickler von PHASE sprechen davon, diesen Prognosefehler mit
ihrem Verfahren um bis zu 50 % senken zu können [2 ]. Aber ein direkter Vergleich der Verfahren miteinander und eine genaue Analyse des
Prognosefehlers unterbleiben. Sehr interessant ist ein Ansatz, der Ergebnisse von
Computersimulationen zur Schätzung des Prognosefehlers durch E-M-Haplotyp-Rekonstruktion
mit dem Stichprobenfehler in Abhängigkeit von verschiedenen Parametern (Stichprobengröße,
Anzahl der untersuchten Loci, Allelhäufigkeit und Abweichung vom Hardy-Weinberg-Equilibrium)
vergleicht [4 ].
Wir verwenden einerseits Computersimulationen basierend auf den in den KORA- Probanden geschätzten Haplotypen und deren Häufigkeiten. Andererseits vergleichen
wir Ergebnisse mit Simulationen basierend auf dem Koalescent-Modell unter Verwendung
des Programms „ms” [5 ], wobei 10 000 Chromosomenabschnitte mit zufälligen Mutationen simuliert werden.
Vorläufige Ergebnisse unserer Untersuchungen zeigen deutlich kleinere Fehlklassifikationsraten
als die, von denen die Originalautoren berichteten, wenn realistische Szenarien simuliert
werden, die sich an den in KORA-Probanden untersuchten Genen anlehnen. Es zeigt sich
allerdings auch, dass die Fehlerraten von Gen zu Gen sehr unterschiedlich sein können,
je nachdem wie hoch die SNPs korreliert und wie groß die Allelfrequenzen sind. Deshalb
sind Strategien zur Reduktion des Haplotyp-Rekonstruktionsfehlers für einige Gene
eher notwendig als für andere.
Fehlklassifikation des Genotyps
Nicht nur die Prognosefehler, auch die Fehlklassifikation des Genotyps beeinträchtigt
die Aussagekraft der Haplotyp-Assoziationsanalyse. Fehlerquellen beinhalten u. a.
Probenvertauschung und Genotypisierungsfehler.
Es wurden einige Fehlermodelle für den Genotypsierungsfehler beschrieben [6 ]
[7 ]. Wir setzen für unsere Untersuchungen folgendes dreistufiges Fehlermodell an:
unabhängige Fehlklassifikation: Der Fehler hängt nicht von der zu typisierenden DNA
ab, d. h. die Wahrscheinlichkeit, dass bei einem A/C-Polymorphismus das A-Allel falsch
bestimmt wird, ist gleich der Wahrscheinlichkeit, dass das C-Allel falsch bestimmt
wird;
allelabhängige Fehlklassifikation: Der Fehler hängt von dem zu typisierenden Allel
ab;
genotypabhängige Fehlklassifikation: Der Fehler hängt von dem zu typisierenden Genotyp
ab. Dies ist ein sehr allgemeines Modell, das durch sechs unterschiedliche Parameter
in einer 3- × - 3-Fehlklassifikationsmatrix beschrieben werden kann. Hierbei können
verschiedene Spezialfälle, die teilweise in der Literatur beschrieben wurden, abgebildet
werden.
Um ein gültiges Fehlermodell aufzustellen und Aussagen über die Fehlklassifikationswahrscheinlichkeiten
machen zu können, muss der Messprozess der Genotypisierung analysiert werden. Bei
der an der GSF etablierten Genotypisierungsmethode MALDITOF-MS (matrix-assisted laser
desorption ionization-time-of-flight mass spectrometer by Sequenom, San Diego, USA)
werden bestimmte DNA-Abschnitte eines Probanden vervielfältigt, sodass sich zum Schluss
genau die Ausprägungen des einen zu untersuchenden SNP derart vervielfacht haben,
dass deren Masse im Massenspektrometer gemessen werden kann. Ein solches Bild wird
an zwei auf der X-Achse definierten Stellen auf das Vorhandensein eines Signals ausgewertet,
wie in diesem Beispiel ein Proband, der heterozygot für einen A/C-Polymorphismus ist:
Abb. 1 Ergebnis der Genotypsierung durch MALDITOF-MS für eine Person, die heterozygot für
einen A/C-Polymorphismus ist. Es werden zwei Signale detektiert, die jeweils das „C-”
und das „A”-Allel an der untersuchten Stelle der DNA nachweisen.
Im Allgemeinen bedeutet ein einziges Signal an der ersten bzw. zweiten Stelle, dass
der Proband das Allel C bzw. A doppelt besitzt (also homozygot C bzw. A ist); je ein
Signal an den beiden Stellen, wie im Bild oben, zeigt einen heterozygoten Probanden
an. Nicht zu vermeiden ist zufälliges Hintergrundrauschen, das zu Fehlern führen kann.
Ein Signal wird dadurch identifiziert, dass die Amplitude eine gewisse Schwelle überschreitet.
Die Amplitude des einen Signals bei homozygoten Personen ist höher als die Amplitude
der zwei Signale bei heterozygoten Personen. Ein vorhandenes Signal kann fälschlicherweise
im Hintergrundrauschen untergehen. Es ist im Fehlermodell zu berücksichtigen, (a)
dass die Fehlklassifikation von heterozygoten Probanden als falsch homozygot (ein
Signal wird übersehen) größer ist als die Fehlklassifikation von homozygoten Probanden
als heterozygot (ein zweites Signal wird fälschlicherweise identifiziert) und (b)
dass die Wahrscheinlichkeit homozygote Probanden als falsch homozygot (z. B. A/A statt
C/C) zu kodieren gleich null ist.
Zur Größe der Fehlklassifikation bei gängigen Genotypisierungsmethoden gibt es in
der Literatur keine Angaben. Viele theoretische Simulationen über Genotypisierungsfehler
arbeiten mit Fehlklassifikationsraten von 5 %. Das erscheint aufgrund der in unserem
Labor durchgeführten Qualitätskontrollen als unrealistisch hoch: Bei jeder Genotypisierung
werden neben Positiv- und Negativkontrollen 10 % der Proben doppelt analysiert. Vorläufige
Auswertungen zeigen eine Fehlklassifikationsrate von ca. 0,5 %. Die Auswertung von
Wiederholungsmessungen ist das Fundament der Charakterisierung und Quantifizierung
des Genotypfehlers in diesem Projekt.
Zukünfige Arbeiten
Zukünfige Arbeiten
Effekte von Unsicherheiten in den Haplotypen
Eine Fehlklassifikation des Geno- oder Haplotyps, die nicht in der Analyse korrigiert
wird, kann zu einer Fehlschätzung eines Erkrankungsrisikos führen [8 ]. Ob dies eine Unterschätzung oder Überschätzung ergibt, hängt von dem zugrunde liegenden
Fehlermodell ab (z.B. [9 ]
[10 ]). Durch Berücksichtigung der Fehlklassifikation in der Analyse kann die Verzerrung
behoben und das Signifikanzniveau wiederhergestellt werden [11 ]
[12 ]. In dem hier beschriebenen Zusammenhang ist eine Kernfrage, inwieweit der Genotypfehler
von dem Genotyp bzw. von dem Allel abhängt.
Der Effekt des Genotypisierungsfehlers auf verschiedene Aspekte bei Familienstudien
wurde bereits beschrieben (z. B. [13 ]
[14 ]). Familien bieten den Vorteil, dass unmögliche Allelkombinationen in den Stammbäumen
erkannt werden können. Dafür gibt es bereits Verfahren und Software (PedCheck [15 ]). Bei populationsbasierten Studien ist eine solche Kontrolle nicht möglich, da im
Allgemeinen keine Information über Eltern oder Geschwister vorhanden ist. Insofern
sind bei Studien wie den KORA-Querschnittstudien einerseits Genotypfehler nicht als
Mendelfehler erkennbar, anderseits ist mit größerem Prognosefehler zu rechnen, da
in der Haplotyp-Rekonstruktion bei Teilnehmern in populationsbasierten Studien keine
Stammbauminformation einbezogen werden kann.
Die Erfassung und Beschreibung der Unsicherheiten in den Haplotypen und die Entwicklung
von Strategien zum Umgang mit den Unsicherheiten in den Haplotypen sind also gerade
für die genetischen Fragestellungen in populationsbasierten Studien wie den KORA-Querschnittstudien
von besonderer Bedeutung.
Danksagung
Danksagung
Wir möchten uns bei allen Mitarbeitern der KORA- Studiengruppe, des Genotypsierungslabors und der Genetischen Statistik bedanken, durch
deren Kooperation dieses Vorhaben ermöglicht wird.
Methodisch-genetische Untersuchungen mit MONICA/KORA wurden gefördert durch die GSF,
das BMBF - Bundesministerium für Bildung und Forschung (NGFN, 01GR0464 TP8.3, 01GR0464
TP8.8) und die DFG - Deutsche Forschungsgemeinschaft (SFB 386 TPB10).
Der Artikel nimmt besonderen Bezug auf folgende Beiträge dieser Sonderausgabe von
Das Gesundheitswesen: [16 ]
[17 ]
[18 ]
[19 ]
[20 ]
[21 ].