Gruppierung und Klassifikation geografischer Adressen

Übersicht Problemstellung und Angebot

Aus der Analyse geografischer Koordinaten können in vielfacher Hinsicht wertvolle Einsichten gewonnen werden. So ist bei der Bewertung und dem Vergleich von Immobilien insbesondere die räumliche Lage ein entscheidendes Kriterium. Lagekoordinaten können darüber hinaus wichtige Zusatzinformationen für verschiedenste Risikobewertungen und Marketinganalysen liefern.
Bei sehr vielen Adressen sind die tatsächlichen räumlichen Standorte und ihre Abstände voneinander jedoch nicht unmittelbar ersichtlich. Das (manuelle) Eintragen in Karten gestaltet sich aufwendig und führt zu keinen weiteren quantitativen Erkenntnissen.
RiskDataScience verfügt über Methoden zur effizienten Ermittlung geografischer Koordinaten und deren Auswertung mittels Machine Learning-Verfahren.
Die geografischen Positionen der zu analysierenden Objekte können unmittelbar als Grafik dargestellt werden. Klassifikations-Algorithmen können erkennen inwiefern sich die Lage auf Objektkriterien wie Preis, Qualität, Risiko usw. auswirkt. Gruppierungs-Algorithmen können Cluster und räumliche Konzentrationen gleichartiger Objekte erkennen und lokale Ausreißer identifizieren.

Anwendungsbeispiel

Zunächst wurden die Adressen und Stern-Anzahlen von insgesamt 190 Münchner Hotels ermittelt.
Die Hotels wurden in die Kategorien „günstig“ (2 und 3 Sterne) und „gehoben“ (4 und 5 Sterne) eingeteilt.
Mittels R Studio wurden automatisch Google-Routinen zur Ermittlung der Koordinaten aus den Adressen aufgerufen.

Geo-Koordinaten 2-/3-Sterne Hotels (rot) und 4-/5-Sterne-Hotels (blau)

Die Koordinaten wurden in RapidMiner importiert und dort weiter ausgewertet.

Dabei wurden zunächst Insample-Tests zur Klassifikation der Kategorien „günstig“ und „gehoben“ durchgeführt.
Die besten Resultate lieferte ein Ensemble-Modell. Die Accuracy konnte allerding nicht auf mehr als 63% gesteigert werden, weswegen nur von einem schwachen Einfluss des Ortes auf die Stern-Anzahl auszugehen ist.

Bei der Gruppierung der Hotels wurden 4 deutliche Cluster im Stadtzentrum identifiziert. Der größte Cluster „1“ (Bahnhofsnähe) beinhaltet dabei 54 und damit 28% der betrachteten Münchner Hotels.

Hotel-Cluster

Insgesamt lässt sich damit selbst für dieses einfache Bespiel auf quantitative Weise der Schluss ziehen, dass es in München einerseits keine ausgeprägte räumliche Trennung günstiger und gehobener Hotels gibt und andererseits deutliche Hotel-Konzentrationen im Stadtzentrum vorhanden sind.

Angebotsstufen für eine Nutzung der Tools zur Analyse geografischer Koordinaten

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und unternehmensspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende zwei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Methoden zur effizienten Ermittlung geografischer Koordinaten mittels der kostenfreien Software R Studio und Google (2.500 Adressen/Tag)
  • Einweisung in Klassifikations- und Gruppierungs-Verfahren mittels der kostenfreien Software RapidMiner (Version 5.3)
  • Übergabe und Installation der vorhandenen R Studio- und RapidMiner-Lösungen inklusive dokumentierter Arbeitsschritte zur Datenbereinigung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken
    Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln

Stufe 2: IT-Lösung

  • Stufe 1 und  zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte, ggf. webbasierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter
  • Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung
  • Fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung
    Kunde verfügt über automatisierte IT-Lösung zur Ermittlung geografischer Koordinaten aus Adressen sowie der automatischen Klassifikation und Gruppierung der Adressen nach örtlichen Gesichtspunkten

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience