Subscribe to RSS
DOI: 10.1055/s-0035-1549939
Wer trifft ins Schwarze? Ein qualitativer Vergleich der kostenfreien Geokodierungsdienste von Google und OpenStreetMap
Who Hits the Mark? A Comparative Study of the Free Geocoding Services of Google and OpenStreetMapPublication History
Publication Date:
08 July 2015 (online)

Zusammenfassung
Hintergrund: Die Umwandlung von Adressdaten in geografische Koordinaten (Geokodierung) nimmt einen immer größeren Stellenwert in der epidemiologischen Forschung als auch im öffentlichen Gesundheitssektor ein. Verzerrungen in der Geokodierung können zu einem nicht unerheblichen Bias in diesen Studien führen und wurden bisher nur unzureichend untersucht. Ziel dieser Studie war es, die kostenfreien Geokodierungsdienste von Google und OpenStreetMap (OSM) hinsichtlich ihrer Vollständigkeit der zu referenzierenden Adressen (‚completeness‘) und der räumlichen Abweichung der Koordinaten (‚positional accuracy‘) von Referenzadressen zu untersuchen.
Methodik: Als Referenzadressen (Goldstandard) wurden bereits vom Landesbetrieb Information und Technik NRW bereinigte und georeferenzierte Adressen benutzt. Dieser Datensatz enthält die Adresse, die Geokoordinaten, Angaben zur Bereinigung der Adressen sowie einen Urbanitätsindikator, basierend auf den CORINE Landnutzungsdaten. Stratifiziert nach Qualität der Adressdaten und dem Urbanitätsindikator wurden zufällig jeweils 2 500 Adressen gezogen (annähernd 20 000 Adressen), geocodiert und Vollzähligkeit sowie Lagegenauigkeit berechnet.
Ergebnisse: Beide Dienste zeigen eine Abnahme der Trefferquote mit Abnahme der Adressqualität und Urbanität. Google zeigte dabei konsistent eine höhere Vollzähligkeit als OSM (>93 vs. >82%) und eine höhere räumliche Präzision der Koordinaten, im Median: <9 vs. < 175,8 m (Verortung bis auf Straßenniveau). Kumulativ gesehen, zeigten 95% der von Google und 50% der von OSM verorteten Adressen (Verortung auf Hausnummern-Niveau) eine Abweichung <50 m.
Schlussfolgerung: Die Geocoding API von Google zeigt eine deutliche Überlegenheit hinsichtlich Vollzähligkeit der Adressen und Lagegenauigkeit der Koordinaten gegenüber OSM. Auch ist das kartografische Confounding bei Google weniger stark ausgeprägt. Andererseits hat Google einige Restriktionen, wie die Beschränkung des Datenvolumens auf 2 500 Adressen/24 h oder der Darstellung der Ergebnisse ausschließlich auf Google Maps-Karten, welche die Nutzung des Dienstes für wissenschaftliche Zwecke erschweren.
Abstract
Background: Geocoding, the process of converting textual information (addresses) into geographic coordinates is increasingly used in public health/epidemiological research and practice. To date, little attention has been paid to geocoding quality and its impact on different types of spatially-related health studies. The primary aim of this study was to compare 2 freely available geocoding services (Google and OpenStreetMap) with regard to matching rate (percentage of address records capable of being geocoded) and positional accuracy (distance between geocodes and the ground truth locations).
Methods: Residential addresses were geocoded by the NRW state office for information and technology and were considered as reference data (gold standard). The gold standard included the coordinates, the quality of the addresses (4 categories), and a binary urbanity indicator based on the CORINE land cover data. 2 500 addresses were randomly sampled after stratification for address quality and urbanity indicator (approximately 20 000 addresses). These address samples were geocoded using the geocoding services from Google and OSM.
Results: In general, both geocoding services showed a decrease in the matching rate with decreasing address quality and urbanity. Google showed consistently a higher completeness than OSM (>93 vs. >82%). Also, the cartographic confounding between urban and rural regions was less distinct with Google’s geocoding API. Regarding the positional accuracy of the geo-coordinates, Google also showed the smallest deviations from the reference coordinates, with a median of <9 vs. <175.8 m. The cumulative density function derived from the positional accuracy showed for Google that nearly 95% and for OSM 50% of the addresses were geocoded within <50 m of their reference coordinates.
Conclusion: The geocoding API from Google is superior to OSM regarding completeness and positional accuracy of the geocoded addresses. On the other hand, Google has several restrictions, such as the limitation of the requests to 2 500 addresses per 24 h and the presentation of the results exclusively on Google Maps, which may complicate the use for scientific purposes.
-
Literatur
- 1 Goldberg DW, Jacquez GM. Advances in geocoding for the health sciences. Spatial and spatio-temporal epidemiology 2012; 3: 1-5
- 2 Krieger N, Waterman P, Lemieux K et al. On the wrong side of the tracts? Evaluating the accuracy of geocoding in public health research. Am J Public Health 2001; 91: 1114-1116
- 3 Healthmap Im Internet: http://www.healthmap.org Stand: 05.02.2015
- 4 Landeszentrum Gesundheit NRW (Infektionssurveillance in Nordrhein-Westfalen) Im Internet: https://www.lzg.gc.nrw.de/themen/Gesundheit_schuetzen/infektionsschutz/landesmeldestelle/surveillance/ Stand: 05.02.2015
- 5 Scharlach H, Crom W. 200 Jahre Infektionskrankheiten im Kartenbild. Hygiene & Medizin 2013; 38: 396-402
- 6 Oliver MN, Matthews KA, Siadaty M et al. Geographic bias related to geocoding in epidemiologic studies. Int- J HealthGeogr 2005; 4: 29
- 7 Rushton G, Armstrong M, Gittler J et al. Geocoding in cancer research: A review. Am J Prev Med 2006; 30: S16- S24
- 8 Jones R, DellaValle C, Flory A et al. Accuracy of residential geocoding in the agricultural health study. Int J Health Geogr 2014; 13: 37
- 9 Mazumdar S, Rushton G, Smith BJ et al. Geocoding accuracy and the recovery of relationships between environmental exposures and health. Int J Health Geogr 2008; 7: 13
- 10 Zandbergen P. Influence of geocoding quality on environmental exposure assessment of children living near high traffic roads. BMC Public Health 2007; 7: 37
- 11 Goldstein ND, Auchincloss AH, Lee BK. A No-Cost Geocoding Strategy Using R. Epidemiology 2014; 25: 311-313
- 12 Jacquez GM. A research agenda: does geocoding positional error matter in health GIS studies?. Spat Spatiotemporal Epidemiol 2012; 3: 7-16
- 13 Goldberg DW, Cockburn MG. The effect of administrative boundaries and geocoding error on cancer rates in California. Spat Spatiotemporal Epidemiol 2012; 3: 39-54
- 14 Kravets N, Hadden WC. The accuracy of address coding and the effects of coding errors. Health Place 2007; 13: 293-298
- 15 Swift JN, Goldberg DW, Wilson JP. Geocoding Best Practices: Review of Eight Commonly Used Geocoding Systems. In: University of Southern California LA, CA. ed GIS Research Laboratory; 2008
- 16 OpenStreetMap (Nutzerstatistiken) Im Internet: http://wiki.openstreetmap.org/wiki/Statistics Stand: 05.02.2015
- 17 DuVander A (The world’s largest Geocoding API repository.). Im Internet: http://www.programmableweb.com/category/geography%2Bmapping/apis?category=20233%2C19978&keyword=Geocoding Stand: 05.02.2015
- 18 Goldberg DW. A geocoding best practice guide. In: Registries NAAOCC. ed. Springfield, IL: 2008
- 19 Google (Google Gecoding API) Im Internet: https://developers.google.com/maps/documentation/geocoding/ Stand: 05.02.2015
- 20 OpenStreetMap (Nominatim) Im Internet: http://wiki.openstreetmap.org/wiki/Nominatim Stand: 05.02.2015
- 21 Schulte B, Lippmann F, Schweikart J. Geokodierung mit Webkartendiensten – Möglichkeiten, Unterschiede und Grenzen. Angewandte Geoinformatik 2010 (AGIT) 2010; Salzburg
- 22 ESRI (ESRI Streetmap) Im Internet: http://www.esri.com/~/media/Files/Pdfs/data/streetmap/comparison-matrix.pdf Stand: 05.02.2015
- 23 IT.NRW Im Internet: http://www.it.nrw.de/ Stand: 05.02.2015
- 24 Bezirksregierung Köln (Hauskoordinaten NRW) Im Internet http://www.bezreg-koeln.nrw.de/brk_internet/geobasis/liegenschaftskataster/hauskoordinaten/index.html Stand: 05.02.2015
- 25 EEA (Corine Land Cover 2000 raster data) Im Internet: http://www.eea.europa.eu/data-and-maps/data/corine-land-cover-2000-raster-1 Stand: 05.02.2015
- 26 GitHub (Nominatim/geocode.R) Im Internet: https://github.com/malexan/nominatim/blob/master/geocode.r Stand: 05.02.2015
- 27 GitHub (Nominatim – geocoordinates) Im Internet https://github.com/malexan/nominatim/blob/master/geocoordinates Stand: 05.02.2015
- 28 Goldstein ND, Auchincloss AH, Lee BK R Script: A No-Cost Geocoding Strategy Using R. Im Internet: http://www.pages.drexel.edu/~bkl29/docs/geocode_public.R Stand: 05.02.2015
- 29 Stack Overflow (Geocoding in R with Google Maps) Im Internet http://stackoverflow.com/questions/3257441/geocoding-in-r-with-google-maps Stand: 05.02.2015
- 30 R Development Core Team (R: A language and environment for statistical computing) Im Internet: http://www.R-project.org Stand: 05.02.2015
- 31 Cayo M, Talbot T. Positional error in automated geocoding of residential addresses. Int J Health Geographics 2003; 2: 10
- 32 Google Developers (Google Maps/Google Earth APIs Terms of Service) Im Internet: https://developers.google.com/maps/terms#section_10_1233 Stand: 05.02.2015
- 33 Google Developers (Geocoding Strategies – Caching) Im Internet: https://developers.google.com/maps/articles/geocodestrat#caching Stand: 05.02.2015
- 34 Abe T, Stinchcomb D. Geocoding practices in cancer registries. In: Rushton G, Armstrong MP, Gittler J. Hrsg Geocoding health data. Boca Raton, FL: CRC Press; 2008
- 35 Bell S, Wilson K, Shah TI et al. Investigating impacts of positional error on potential health care accessibility. Spatial and spatio-temporal epidemiology 2012; 3: 17-29