Subscribe to RSS
DOI: 10.1055/a-1984-0085
Methodik und Zuordnungserfolg eines Linkage von Daten klinischer Krebsregister mit Abrechnungsdaten gesetzlicher Krankenkassen
Methodology and Attribution Success of a Data Linkage of Clinical Registry Data with Health Insurance Data![](https://www.thieme-connect.de/media/gesu/2023S02/lookinside/thumbnails/2021-09-1528_10-1055-a-1984-0085-1.jpg)
Zusammenfassung
Hintergrund Das vom Innovationsfonds geförderte Projekt „Wirksamkeit der Versorgung in onkologischen Zentren“ (WiZen) ist ein breit angelegtes Projekt zur Erforschung der Wirksamkeit von Zertifizierungen in der Onkologie. Im Rahmen des Projektes werden bundesweite Daten der AOKen und Daten Klinischer Krebsregister aus verschiedenen Bundesländern für die Jahre 2006–2017 verwendet. Zur Kombination der Stärken beider Datenquellen werden diese für acht verschiedene Krebsentitäten datenschutzkonform miteinander verknüpft.
Methoden Das Datenlinkage erfolgte dabei anhand indirekter Identifikatoren und wurde mittels der Krankenversichertennummer als direktem Identifikator und Goldstandard validiert. Dies ermöglicht die Quantifizierung von Potenzial und Qualität verschiedener Linkage-Varianten. Als Kriterien zur Bewertung der Zuordnungen wurden Sensitivität und Spezifität sowie Treffergenauigkeit und Treffergüte genutzt. Die durch das Linkage resultierenden Verteilungen relevanter Variablen wurden anhand der ursprünglichen Verteilungen in den Einzeldatensätzen validiert.
Ergebnisse Je nach Kombination indirekter Identifikatoren ergab sich eine Bandbreite von 22.125 bis 3.092.401 Linkage-Treffern. Eine nahezu perfekte Verknüpfung der betrachteten Daten konnte durch die Kombination von Informationen zu Entitätsart, Geburtsdatum, Geschlecht und Postleitzahl der Personen erreicht werden. Insgesamt wurden mit den genannten Merkmalen 74.586 eineindeutige Verknüpfungen und für die verschiedenen Entitäten eine mediane Treffergüte von mehr als 98% erreicht. Die Alters- und Geschlechtsverteilungen der verschiedenen Datenquellen sowie die verknüpften Sterbedaten wiesen zudem eine hohe Übereinstimmung auf.
Diskussion und Schlussfolgerung GKV- und Krebsregisterdaten lassen sich mit hoher interner und externer Validität auf Individualdatenebene verknüpfen. Die stabile Verknüpfung ermöglicht durch den simultanen Zugang zu Variablen beider Datensätze („das Beste aus beiden Welten“) gänzlich neue Analysemöglichkeiten: Für einzelne Personen stehen nun sowohl Informationen zum UICC-Stadium der Erkrankung aus den Registern als auch Komorbiditäten aus den GKV-Daten zur Verfügung. Durch die Verwendung gut verfügbarer Linkagevariablen und den hohen Verknüpfungserfolg ist das Verfahren vielversprechend für künftige Linkages in der Versorgungsforschung.
Abstract
Background The aim of the project “Effectiveness of care in oncological centres” (WiZen), funded by the innovation fund of the federal joint committee, is to investigate the effectiveness of certification in oncology. The project uses nationwide data from the statuory health insurance AOK and data from clinical cancer registries from three different federal states from 2006–2017. To combine the strengths of both data sources, these will be linked for eight different cancer entities in compliance with data protection regulations.
Methods Data linkage was performed using indirect identifiers and validated using the health insurance‘s patient ID („Krankenversichertennummer“) as a direct identifier and gold standard. This enables quantification of the quality of different linkage variants. Sensitivity and specificity as well as hit accuracy and a score addressing the quality of the linkage were used as evaluation criteria. The distributions of relevant variables resulting from the linkage were validated against the original distributions in the individual datasets.
Results Depending on the combination of indirect identifiers, we found a range of 22,125 to 3,092,401 linkage hits. An almost perfect linkage could be achieved by combining information on cancer type, date of birth, gender and postal code. A total of 74,586 one-to-one linkages were achieved with these characteristics. The median hit quality for the different entities was more than 98%. In addition, both the age and sex distributions and the dates of death, if any, showed a high degree of agreement.
Discussion and conclusion SHI and cancer registry data can be linked with high internal and external validity at the individual level. This robust linkage enables completely new possibilities for analysis through simultaneous access to variables from both data sets (“the best of both worlds”): Information on the UICC stage that stems from the registries can now be combined, for instance, with comorbidities from the SHI data at the individual level. Due to the use of readily available variables and the high success of the linkage, our procedure constitutes a promising method for future linkage processes in health care research.
Schlüsselwörter
Datenlinkage - Klinische Krebsregisterdaten - GKV-Routinedaten - indirekte Identifikatoren - LinkagevalidierungKey words
clinical cancer registry data - public health insurance data - data linkage - indirect identifiers - validation of linkagePublication History
Article published online:
20 March 2023
© 2023. Thieme. All rights reserved.
Georg Thieme Verlag
Rüdigerstraße 14, 70469 Stuttgart, Germany
-
Literatur
- 1 Möslein G, Haier J, Schlag PM. Klinische und epidemiologische Krebsregister. Der Onkologe 2013; 19: 1022-1024
- 2 Horenkamp-Sonntag D, Schneider U, Engel S. et al. Validität von GKV-Routinedaten: In welchem Umfang muss bei der wissenschaftlichen Nutzung von Sekundärdaten die Daten-Qualität geprüft werden?. Zeitschrift für Palliativmedizin 2014; 15
- 3 Schoffer O, Roessler M, Datzmann T. et al. Medical Care and Survival of Soft-Tissue and Bone Sarcoma Patients: Results and Methodological Aspects of a German Subnational Cohort Study Based on Administrative Healthcare Data. Oncol Res Treat 2021; 44: 103-110
- 4 Schubert I, Ihle P, Köster I. et al. Datengutachten für das Deutsche Institut für Medizinische Dokumentation und Information (DIMDI). Gutachten: Daten für die Versorgungsforschung. Zugang und Nutzungsmöglichkeiten. In.. Köln: PMV Forschungsgruppe; 2014
- 5 March S, Andrich S, Drepper J. et al. Good Practice Data Linkage. Gesundheitswesen 2019; 81: 636-650
- 6 Schaefer JT. The Critical Success Index as an Indicator of Warning Skill. Weather and Forecasting 1990; 5: 570-575
- 7 Roessler M, Schmitt J, Bobeth C. et al. Is treatment in certified cancer centers related to better survival in patients with pancreatic cancer? Evidence from a large German cohort study. BMC Cancer 2022; 22: 621
- 8 Elixhauser A, Steiner C, Harris DR. et al. Comorbidity measures for use with administrative data. Med Care 1998; 36: 8-27
- 9 Hammill BG, Hernandez AF, Peterson ED. et al. Linking inpatient clinical registry data to Medicare claims data using indirect identifiers. Am Heart J 2009; 157: 995-1000
- 10 Maier B, Wagner K, Behrens S. et al. Deterministic record linkage with indirect identifiers: data of the Berlin Myocardial Infarction Registry and the AOK Nordost for patients with myocardial infarction. Gesundheitswesen 2015; 77: e15-e19
- 11 March S, Antoni M, Kieschke J. et al. Quo Vadis Data Linkage in Germany? An Initial Inventory. Gesundheitswesen 2018; 80: e20-e31
- 12 Rothe U, Müller G. Evaluation eines Strukturvertrages zur Inzidenz des Gestationsdiabetes auf der Basis von Sekundärdaten. Diabetologie und Stoffwechsel 2013; 8
- 13 Hinrichs H. Bundesweite Einführung eines einheitlichen Record Linkage-Verfahrens in den Krebsregistern der Bundesländer nach dem KRG, Abschlußbericht des Projekts. In. Oldenburg. 1999
- 14 Thoben W, Appelrath HJ. Verschlüsselung personenbezogener und Abgleich anonymisierter Daten durch Kontrollnummern. In Verläßliche IT-Systeme. Wiesbaden: Vieweg+Teubner Verlag; 1995: 193-206
- 15 Rocher L, Hendrickx JM, de Montjoye YA. Estimating the success of re-identifications in incomplete datasets using generative models. Nat Commun 2019; 10: 3069