Event-Details
Vortrag: OSM-History-Analysen auf Basis von Big-Data-Technologie
Referenten
Martin Raifer |
Für manche Datenanalysen reicht es nicht aus, mit „herkömmlichen“ Planet-Dumps zu arbeiten. Nämlich genau dann wenn man neben dem aktuell gültigen Stand der Daten, auch deren Bearbeitungs-Historie benötigt. Diese ist wichtig beispielsweise für intrinsische Datenqualitätsanalysen oder andere tiefgründige Analysen des OpenStreetMap Datensatzes. Zur Zeit stellt die OpenStreetMap Foundation regelmäßig sogenannte Full-History-Planet-Dumps als Download zur Verfügung, die solche Analysen ermöglichen.
In aktuellen Arbeiten am Heidelberg Institut for Geoinformation Technology (HeiGIT) sollen derartige Analysen von Full-History-Planet-Dumps mit Hilfe einer Cloud-basierten, verteilten Big-Data-Datenbankinfrastruktur sowohl im Allgemeinen vereinfacht als auch performanter gestaltet werden, um detaillierte Analysen von OpenStreetMap Daten zu ermöglichen. Um möglichst flexibel bezüglich der möglichen Anwendungen zu sein, ist das Datenmodell dieser „OSM-History-Analysis-Datenbank“ sehr eng an das OSM-Datenmodell angelehnt.
Der Fokus liegt dabei zunächst darauf, damit intrinsische Datenqualitätsanalysen von OSM-Daten technisch zu unterstützen (um so z.B. ähnliche Analysen wie jene, die im Projekt „iOSMAnalyzer“ vorgeschlagen wurden, global verfügbar zu machen). Zu den weiteren Anwendungsmöglichkeiten dieser Datenbank gehört, damit direkt weitere OSM-Datenvisualisierungen (wie z.B. ähnlich zu OSMatrix) zu betreiben oder darauf aufbauend neuartige Tools und Services zu entwickeln, die für eine erweiterte Zielgruppe (insbesondere auch OSM Mapper) interessant sein können.
Für tiefgründige OSM-Datenanalysen werden mit unter Full-History-Planet-Dumps benötigt, welche zur Verarbeitung leider schnell recht unhandlich werden können. Um diese Situation zu verbessern betreibt die Universität Heidelberg seit Kurzem verteilte Big-Data-Infrastruktur, die den Zugriff auf die kompletten OSM-History-Daten erleichtert. Damit soll die Forschung an intrinsischen Datenqualitätsanalysen vorangetrieben, sowie die Entwicklung von neuen Visualisierungen und Tools ermöglicht werden.