Gesundheitswesen 2005; 67: 132-136
DOI: 10.1055/s-2005-858253
Originalarbeit

© Georg Thieme Verlag KG Stuttgart · New York

Wie gut können Haplotypen in den populationsbasierten KORA-Studien rekonstruiert werden?

How About the Uncertainty in the Haplotypes in the Population-Based KORA Studies?I. M. Heid1 , C. Lamina1 , F. Bongardt1 , G. Fischer1 , N. Klopp1 , C. Huth1 , H. Küchenhoff2 , F. Kronenberg1, 3 , H. E. Wichmann1 , T. Illig1
  • 1Institute of Epidemiology, GSF National Research Center for Environment and Health, Neuherberg, Germany
  • 2Department of Statistics, Ludwig-Maximilians-Universtität München, Germany
  • 3Innsbruck Medical University, Department of Medical Genetics, Molecular and Clinical Pharmacology, Division of Genetic Epidemiology, Innsbruck, Austria
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
19. Juli 2005 (online)

Zusammenfassung

In den KORA-Surveys werden derzeit verschiedene Kandidatengene, die in Zusammenhang mit Typ 2 Diabetes, Herzinfarkt, Atherosklerose, Adipositas und anderen Erkrankungen stehen, untersucht. Hierbei werden SNPs (Single Nucleotide Polymorphisms, Einzelbasenaustausche) in verschiedenen Genen bei den Probanden der Querschnittstudie genotypisiert. Ferner gewinnen Haplotypen an Bedeutung: Haplotypen sind Kombinationen von Allelen innerhalb von bestimmten Abschnitten eines Chromosomenstrangs. Die Betrachtung solcher Haplotypen in genetischen Assoziationsstudien ist oft effizienter als die Betrachtung der einzelnen SNPs. Ein statistisches Problem ist hierbei die Rekonstruktion der Phaseninformation: Bei der Genotypisierung werden nur die Allele (also die Ausprägungen) eines Individuums an den SNPs bestimmt, jedoch nicht, welche Base auf welchem Chromosomenstrang angesiedelt ist. Verschiedene statistische Haplotyp-Rekonstruktionsverfahren ermöglichen die Identifizierung der wahrscheinlichsten Haplotypen. Dabei ist ein gewisser Prognosefehler unausweichlich. Auch Genotypisierungsfehler können zur Unsicherheit in den Haplotypen beitragen. Dieser Genotypfehler kann von Bedeutung werden, selbst wenn der Genotypfehler je SNP sehr klein ist. Dies liegt daran, dass mehrere SNPs an den Haplotypen beteiligt sind. Ein Ziel dieses Projekts ist die Quantifizierung der Haplotyp-Unsicherheiten bei Genen, die in KORA untersucht wurden. Wir verwenden einerseits Computersimulationen basierend auf den in den KORA-Probanden beobachteten Haplotypen und deren Häufigkeiten. Andererseits vergleichen wir Ergebnisse mit Simulationen basierend auf mathematischen Modellen zur Evolution („coalecent models”). Diese Unsicherheiten in den Haplotypen können dazu führen, dass vorhandene Assoziationen zwischen Gen und Erkrankung nicht gefunden werden, da die Unsicherheit in den Haplotypen den Unterschied der Haplotyp-Häufigkeiten zwischen Erkrankten und Nichterkrankten verwischt. Das Ausmaß dieses Problems und Lösungsmöglichkeiten aufzuzeigen, ist das zweite Ziel dieses Projekts.

Abstract

In the KORA surveys, numerous candidate genes in the context of type 2 diabetes, myocardial infarction, atherosclerosis or obesity are under investigation. Current focus is on genotyping single nucleotide polymorphism (SNPs). Haplotypes are also of increasing interest: haplotypes are combinations of alleles within a certain section of one chromosome. Analysing haplotypes in genetic association studies is often more efficient than studying the SNPs separately. A statistical problem in this context is the reconstruction of the phase: genotyping the SNPs determines the alleles of an individual at one particular locus of the DNA, but does not reveal which allele is located on which one of the two chromosomes. This information is required when talking about haplotypes. There are statistical approaches to identify the most likely two haplotypes of an individual given the genotypes. However, a certain error in prognosis is unavoidable. There are also errors in the genotypes. These errors are assumed to be small for one SNP but can accumulate over the SNPs involved in one haplotype and thus can induce further uncertainty in the haplotype. It is therefore the aim of our project to quantify the uncertainties in the haplotypes particularly for genes investigated in the KORA surveys. We conduct computer simulations based on the haplotypes and their frequencies observed in the KORA individuals and compare the results with simulations based on mathematical modelling of the evolutionary process (”coalescent models”). The uncertainties in the haplotypes have an impact on the search for association between genes and disease: an association may not be detected as the haplotype uncertainty obscures the haplotype frequency differences between cases and controls. It is a further aim of our project to elucidate the extent of this problem and to develop strategies for reducing it.

Literatur

  • 1 Excoffier L, Slatkin M. Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.  Mol Biol Evolution. 1995;  12 921-927
  • 2 Stephens M, Smith N J, Donnelly P. A new statistical method for haplotype reconstruction from population data.  Am J Hum Genet. 2001;  68 978-989
  • 3 Stephens M, Donnelly P. A comparison of bayesian methods for haplotype reconstructionfrom population genotype data.  Am J Hum Genet. 2003;  73 1162-1169
  • 4 Fallin D, Cohen A, Essioux L. et al . Genetic analysis of case/control data using estimated haplotype frequencies: application to APOE locus variation and Alzheimer’s disease.  Genome Res. 2001;  11 (1) 143-151
  • 5 Hudson R R. Generating samples under a Wright-Fisher neutral model of genetic variation.  Bioinformatics. 2002;  18 (2) 337-338
  • 6 Akey J M, Zhang K, Xiong M. et al . The effect that genotyping errors have on the robustness of common linkage-disequilibrium measures.  Am J Hum Genet. 2001;  68 1447-1456
  • 7 Gordon D. et al . A transmission/disequilibrium test that allows for genotyping errors in the analysis of single-nucleotide polymorphism data.  Am J Hum Genet. 2001;  69 371-380
  • 8 Bross I. Misclassifikation in 2 × 2 tables.  Biometrics. 1978;  10 478
  • 9 Rubin T, Rosenbaus A B, Cobb S. The use of interview data for the detection of associations in field studies.  J Chronic Diseases. 1956;  4 253-266
  • 10 Wacholder S, Dosemeci M, Lubin J H. Blind assignment of exposure does not always prevent differential misclassification.  Am J Epidemiol. 1991;  1134 433-437
  • 11 Duffy S W, Rohan T E, Day N E. Misclassification in more than one factor in a case-control study: a combination of Mantel-Haenszel and maximum likelihood approaches.  Stat Med. 1989;  8 1529-1536
  • 12 Kaldor J, Clayton D. Latent class analysis in crhonic disease epidemiology.  Stat Med. 1985;  4 327-335
  • 13 Ott J. Linkage analysis with misclassifiication at one locus.  Clin Genet. 1977;  12 119-124 [erratum in Clin Genet 1977; 12: 254]
  • 14 Göring H HH, Terwilliger J D. Linkage analysis in the presence of errors I: complex-valued recombination fractions and complex phenotypes.  Am J Hum Genet. 2000;  66 1095-1106
  • 15 O’Connell J R, Weeks D E. PedCheck: a program for identification of genotyping incompatibilities in linkage analysis.  Am J Hum Genet. 1998;  63 259
  • 16 Löwel H, Döring A, Schneider A. et al . The MONICA Augsburg surveys - basis for prospective cohort studies.  Gesundheitswesen. 2005;  67 S1 S13-S18
  • 17 Holle R, Happich M, Löwel H. et al . KORA - A research platform for population based health research.  Gesundheitswesen. 2005;  67 S1 S19-S25
  • 18 Wichmann H E, Gieger C, Illig T. et al . KORA-gen - Resource for population genetics, controls and a broad spectrum of disease phenotypes.  Gesundheitswesen. 2005;  67 S1 S26-S30
  • 19 Löwel H, Meisinger C, Heier M. et al . The population-based Acute Myocardial Infarction (AMI) Registry of the MONICA/KORA study region of Augsburg.  Gesundheitswesen. 2005;  67 S1 S31-S37
  • 20 Illig T, Bongardt F, Schöpfer-Wendels A. et al . Genetics of type 2 diabetes: impact of Interleukin-6 gene variants.  Gesundheitswesen. 2005;  67 S1 S122-S126
  • 21 Lamina C, Steffens M, Mueller J. et al . Genetic diversity in German and European populations: looking for substructures and genetic patterns.  Gesundheitswesen. 2005;  67 S1 S127-S131

Iris M. Heid

GSF - Forschungszentrum für Umwelt und Gesundheit, Institut für Epidemiologie

Ingolstädter Landstraße 1

85764 Neuherberg

eMail: heid@gsf.de