Subscribe to RSS
DOI: 10.1055/s-0043-125070
Quo vadis Datenlinkage in Deutschland? Eine erste Bestandsaufnahme
Quo Vadis Data Linkage in Germany? An Initial InventoryPublication History
Publication Date:
20 February 2018 (online)
Zusammenfassung
Die Verknüpfung verschiedener Datenquellen, genannt Datenlinkage oder auch Record Linkage, zur Beantwortung von wissenschaftlichen Fragestellungen findet in den letzten Jahren in Deutschland vermehrt Anwendung. Jedoch mangelt es bisher an publizierten Erfahrungen. Neue Projekte erarbeiten sich in der Regel autark voneinander das notwendige Handwerkszeug. Daher hat sich eine Gruppe von Forschern zusammengefunden, um ihre Erfahrungen zum Datenlinkage in Deutschland als mögliche Hilfestellung bzw. Anregung für Projekte, Gutachter sowie Datenschützer und Ethikkommissionen zusammenzustellen. Ziel dieser ersten Bestandsaufnahme zum Datenlinkage ist es deshalb, eine Unterstützung für zukünftige Projekte zu liefern, die Daten aus Deutschland auf individueller Ebene verknüpfen möchten. Neben den (datenschutz-)rechtlichen Rahmenbedingungen werden dabei auch praxisorientiert die Arten des Datenlinkage, deren Anwendungsfelder und Ansätze zur Vermeidung von Fehlern anhand von Beispielen dargestellt.
Abstract
In recent years, linking different data sources, also called data linkage or record linkage, to address scientific questions, is being increasingly used in Germany. However, there are very few published reports and new projects develop the necessary tools independently of each other. Therefore, a team of researchers joined together to exchange their experiences on data linkage and to give suggestions on how linkage could be done for scientists, reviewers as well as members of data privacy boards and ethics committees. It is the aim of this article to assist future projects that want to link German data on an individual level. In addition to the legal framework conditions (data privacy), also examples of types of data linkage, their fields of application und potential pitfalls as well as the methods of preventing them will be described in an application-oriented fashion.
-
Literatur
- 1 Glaeske G, Augustin M, Abholz H. et al. Epidemiological methods for health services research. Gesundheitswesen 2009; 71: 685-693
- 2 Swart E, Gothe H, Geyer S. et al. Good practice of secondary data analysis (GPS): guidelines and recommendations. Third Revision 2012/2014. Gesundheitswesen 2015; 77: 120-126
- 3 Kurth BM. Monitoring and no end in sight: after the survey is before the survey. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2013; 56: 607-608
- 4 German National Cohort (GNC) Consortium. The German National Cohort: aims, study design and organization. Eur J Epidemiol 2014; 29: 371-382
- 5 Swart E, Stallmann C, Powietzka J. et al. Data linkage of primary and secondary data: a gain for small-area health-care analysis?. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2014; 57: 180-187
- 6 Kreis K, Neubauer S, Klora M. et al. Status and perspectives of claims data analyses in Germany-A systematic review. Health Policy 2016; 120: 213-226
- 7 Hoffmann F. Review on use of German health insurance medication claims data for epidemiological research. Pharmacoepidemiol Drug Saf 2009; 18: 349-356
- 8 Swart E, Ihle P, Gothe H. et al. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse Grundlagen, Methoden und Perspektiven. 2. Aufl 2014. Bern: Huber;
- 9 March S, Rauch A, Bender S. et al. Data protection aspects concerning the use of social or routine data. FDZ Methodenreport 2015; 12: 1-22
- 10 Hoffmann F, Abbas S. Gut gelinkt ist halb gewonnen: Es könnte alles so einfach sein, ist es aber nicht. Gesundheitswesen 2015; 77: 72-73
- 11 Maier B, Wagner K, Behrens S. et al. Deterministic record linkage with indirect identifiers: data of the Berlin Myocardial Infarction Registry and the AOK Nordost for patients with myocardial infarction. Gesundheitswesen 2015; 77: e15-e19
- 12 March S, Powietzka J, Stallmann C. et al. The significance of a large number of health insurance funds and fusions for health services research with statutory health insurance data in Germany - Experiences of the lidA Study. Gesundheitswesen 2015; 77: e32-e36
- 13 Schmidt CO, Reber K, Baumeister SE. et al. Integration of primary and secondary data in the Study of Health in Pomerania and description of clinical outcomes using stroke as an example. Gesundheitswesen 2015; 77: e20-e25
- 14 March S, Stallmann C, Swart E. Datenlinkage. In: Swart E, Ihle P, Gothe H, Matusiewicz D. (eds) Routinedaten im Gesundheitswesen. Handb. Sekundärdatenanalyse Grundlagen, Methoden und Perspekt.. 2. Aufl. 2014. Bern: Huber; pp 347-355
- 15 Hoffmann W, Latza U, Terschüren C. Deutsche Arbeitsgemeinschaft für Epidemiologie (DAE), Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutsche Gesellschaft für Sozialmedizin und Prävention (DGSMP) DR der IBG (DR-I. Guidelines and Recommendations for Ensuring Good Epidemiological Practice (GEP) - Revised Version after Evaluation. Gesundheitswesen 2005; 67: 217-225
- 16 Benchimol EI, Smeeth L, Guttmann A. et al. The REporting of studies Conducted using Observational Routinely-collected health Data (RECORD) statement. Z Evid Fortbild Qual Gesundhwes 2016; 115–116: 33-48
- 17 Swart E, Bitzer E, Gothe H. et al. A Consensus German Reporting Standard for Secondary Data Analyses, Version 2 (STROSA-STandardisierte BerichtsROutine für SekundärdatenAnalysen). Gesundheitswesen 2016; 78: e145-e160
- 18 Sariyar M, Borg A. The Record Linkage package: Detecting errors in data. R J 2010; 2: 61-67
- 19 Harron K, Goldstein H, Dibben C. Methodological developments in data linkage. 2015. John Wiley & Sons;
- 20 Christen P, Winkler WE. Record Linkage. Encycl. Mach. Learn. Data Min. 2016. Boston, MA: Springer US; pp 1-10
- 21 Fellegi IP, Sunter AB. A Theory for Record Linkage. J Am Stat Assoc 1969; 64: 1183-1210
- 22 Cochinwala M, Kurien V, Lalk G. et al. Efficient data reconciliation. Inf Sci (Ny) 2001; 137: 1-15
- 23 Elmagarmid AK, Ipeirotis PG, Verykios VS. Duplicate record detection: A survey. IEEE Trans Knowl Data Eng 2007; 19: 1-16
- 24 Christen P. Data matching: concepts and techniques for record linkage, entity resolution, and duplicate detection. 2012. Springer Science & Business Media;
- 25 Schnell R, Bachteler T, Reiher J. Die Anwendung statistischer Record-Linkage-Methoden auf selbst-generierte Codes bei Längsschnitterhebungen. ZA-Information 2006; 128-152
- 26 Schnell R, Bachteler T, Reiher J. Entwicklung einer neuen fehlertoleranten Methode bei der Verknüpfung von personenbezogenen Datenbanken unter Gewährleistung des Datenschutzes. Methoden, Daten, Anal 2009; 3: 203-217
- 27 Gomatam S, Carter R, Ariet M. et al. An empirical comparison of record linkage procedures. Stat Med 2002; 21: 1485-1496
- 28 Ristad ES, Yianilos PN. Learning string-edit distance. IEEE Trans Pattern Anal Mach Intell 1998; 20: 522–532
- 29 Navarro G. A guided tour to approximate string matching. ACM Comput Surv 2001; 33: 31-88
- 30 Ristad ES, Yianilos PN. Learning string-edit distance. IEEE Trans Pattern Anal Mach Intell 1998; 20: 522-532
- 31 Schnell R, Bachteler T, Reiher J. MTB: ein Record-Linkage-Programm für die empirische Sozialforschung. ZA-Information 2005; 56: 93–103
- 32 Jaro MA. Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida. J Am Stat Assoc 1989; 84: 414-420
- 33 Schnell R, Bachteler T, Reiher J. MTB: ein Record-Linkage-Programm für die empirische Sozialforschung. ZA-Information 2005; 56: 93-103
- 34 Newcombe HB, Kennedy JM, Axford SJ. et al. Automatic linkage of vital records. Science 1959; 130: 954-959
- 35 Tromp M, Ravelli AC, Bonsel GJ. et al. Results from simulated data sets: probabilistic record linkage outperforms deterministic record linkage. J Clin Epidemiol 2011; 64: 565-572
- 36 Giersiepen K, Bachteler T, Gramlich T et al. Performance of record linkage for cancer registry data linked with mammography screening data. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2010; 53: 740–747
- 37 Zhu VJ, Overhage MJ, Egg J. et al. An empiric modification to the probabilistic record linkage algorithm using frequency-based weight scaling. J Am Med Informatics Assoc 2009; 16: 738-745
- 38 Giersiepen K, Bachteler T, Gramlich T. et al. Performance of record linkage for cancer registry data linked with mammography screening data. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2010; 53: 740-747
- 39 Kajüter H, Geier A, Wellmann I. et al. Cohort study of cancer incidence in patients with type 2 diabetes : Record linkage of encrypted data from an external cohort with data from the Epidemiological Cancer Registry of North Rhine-Westphalia. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2014; 57: 52-59
- 40 Hammill BG, Hernandez AF, Peterson ED. et al. Linking inpatient clinical registry data to Medicare claims data using indirect identifiers. Am Heart J 2009; 157: 995-1000
- 41 Brennan JM, Peterson ED, Messenger JC. et al. Linking the National Cardiovascular Data Registry CathPCI Registry with Medicare claims data: validation of a longitudinal cohort of elderly patients undergoing cardiac catheterization. Circ Cardiovasc Qual Outcomes 2012; 5: 134-140
- 42 Ohlmeier C, Hoffmann F, Giersiepen K. et al. Linkage of Statutory Health Insurance Data with those of a Hospital Information System: Feasible, but also “Useful”?. Gesundheitswesen 2015; 77: e8-e14
- 43 Rothe U, Müller G. Evaluation eines Strukturvertrages zur Inzidenz des Gestationsdiabetes auf der Basis von Sekundärdaten. Diabetol und Stoffwechsel 2013; 8: FV65
- 44 Boyd JH, Randall SM, Ferrante AM. Application of privacy-preserving techniques in operational record linkage centres. Med. Data Priv. Handb 2015; Springer pp 267-287
- 45 Randall SM, Ferrante AM, Boyd JH. et al. Privacy-preserving record linkage on large real world datasets. J Biomed Inform 2014; 50: 205-212
- 46 Vatsalan D, Christen P. Privacy-preserving matching of similar patients. J Biomed Inform 2016; 59: 285-298
- 47 Niedermeyer F, Steinmetzer S, Kroll M. et al. Cryptanalysis of basic bloom filters used for privacy preserving record linkage. J Priv Confidentiality 2014; 6: 3
- 48 Randall SM, Ferrante AM, Boyd JH. et al. Limited privacy protection and poor sensitivity. Is it time to move on from the statistical linkage key-581?. Heal Inf Manag J 2016; 45: 71-79
- 49 Weber SC, Lowe H, Das A. et al. A simple heuristic for blindfolded record linkage. J Am Med Inform Assoc 2012; 19: e157-e161
- 50 Hochfellner D, Voigt A, Budzak U. et al. Das Projekt BASiD: Biografiedaten ausgewählter Sozialversicherungsträger in Deutschland. Projektinhalte, aktueller Stand der Arbeiten und Analysemöglichkeiten. Dtsch Rentenversicherung Bund (Hrsg). FDZ-RV-Daten zur Rehabil über Versicherte und Rentner 2010; 74-86
- 51 Korbmacher JM, Schroeder M. Consent when linking survey data with administrative records: the role of the interviewer. Surv Res Methods 2013; pp 115-131
- 52 March S, Swart E, Robra B-P. Können Krankenkassendaten Primärdaten verzerrungsfrei ergänzen? – Selektivitätsanalysen im Rahmen der lidA-Studie. Gesundheitsökonomie Qual 2017; 22: 104-115
- 53 Christen P. A survey of indexing techniques for scalable record linkage and deduplication. IEEE Trans Knowl Data Eng 2012; 24: 1537-1555
- 54 Schnell R. An efficient privacy-preserving record linkage technique for administrative data and censuses. Stat J IAOS 2014; 30: 263-270
- 55 March S, Rauch A, Thomas D. et al. Procedures according to data protection laws for coupling primary and secondary data in a cohort study: the lidA study. Gesundheitswesen 2012; 74: e122-e129
- 56 Ihle P. Data protection and methodological aspects in compiling a routine database from statutory health insurance data for research purposes. Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 2008; 51: 1127-1134
- 57 Ihle P, Köster I, Herholz H. et al. Sample survey of persons insured in statutory health insurance institutions in Hessen–concept and realisation of person-related data base. Gesundheitswesen 2005; 67: 638-645
- 58 Ohlmeier C, Langner I, Garbe E. et al. Validating mortality in the German Pharmacoepidemiological Research Database (GePaRD) against a mortality registry. Pharmacoepidemiol Drug Saf 2016; 25: 778-784
- 59 Sariyar M, Borg A. Deterministic linkage as a preceding filter for other record linkage methods. Int J Inf Technol Decis Mak 2015; 14: 521-533
- 60 Sariyar M, Borg A, Pommerening K. Evaluation of record linkage methods for iterative insertions. Methods Inf Med 2009; 48: 429-437
- 61 Sakshaug JW, Antoni M. Errors in linking survey and administrative data. In: Biemer PP, De Leeuw ED, Eckman S. et al. (eds) Total Surv. Error Pract. Improv. Qual. Era Big Data.. 2016. John Wiley & Sons;
- 62 Gilbert R, Lafferty R, Hagger-Johnson G. et al. GUILD: GUidance for Information about Linking Data sets. J Public Health (Oxf) 2017; 1-8
- 63 Ferrie JE. IJE series old and new. Int J Epidemiol 2014; 43: 1689-1690
- 64 Czaplicki C, Korbmacher J. SHARE-RV: Verknüpfung von Befragungsdaten des Survey of Health, Ageing and Retirement in Europe mit administrativen Daten der Rentenversicherung. In: Deutsche Rentenversicherung Bund (ed) Gesundheit, Migr. und Einkommensungleichheit. 2010. DRV-Schriften Band 55/2010 pp 28-37
- 65 Korbmacher J, Czaplicki C. Linking SHARE survey data with administrative records: First experiences from SHARE-Germany. In: Malter F, Börsch-Supan A. (eds) SHARE Wave 4 Innov. Methodol. 2013. Munich: Max Planck Institute for Social Law and Social Policy; pp 47-52
- 66 Antoni M, Jacobebbinghaus P, Seth S. ALWA-Befragungsdaten verknüpft mit administrativen Daten des IAB (ALWA-ADIAB) 1975-2009. FDZ Methodenreport 2011; 5: 1-64
- 67 Antoni M, Seth S. ALWA-ADIAB-linked individual survey and administrative data for substantive and methodological research. Schmollers Jahrb 2012; 132: 141-146
- 68 Ohmann C, Smektala R, Pientka L. et al. A new model of comprehensive data linkage–evaluation of its application in femoral neck fracture. Zeitschrift für ärztliche Fortbildung und Qual 2005; 99: 547-554
- 69 Swart E, Ihle P, Gothe H. et al. Glossar. In: Swart E, Ihle P, Gothe H, Matusiewicz D. (eds) Routinedaten im Gesundheitswesen. Handb. Sekundärdatenanalyse Grundlagen, Methoden und Perspekt.. 2. Aufl. 2014. Bern: Huber; pp 504-515