Klassifikations-Algorithmen

Neue Machine-Learning-Methode soll Einbrecher stoppen

Robert Klatt

Einbrecher )moc.yabaxipyaWlatigiDehT(Foto: © 

In Deutschland wurden 2018 nur 18,1 Prozent der 97.504 erfolgten Wohnungseinbrüche aufgeklärt. Eine neue Software der ETH Zürich könnte in Zukunft der Polizei dabei helfen, Täter auf frischer Tat zu ertappen.

Zürich (Schweiz). Im vergangenen Jahr kam es laut der Polizeilichen Kriminalstatistik (PDF) des Bundeskriminalamts (BKA) in Deutschland zu 97.504 Wohnungseinbrüchen. Im Vorjahr waren es noch 116.540 Einbrüche, was einem Rückgang von 16,3 Prozent entspricht. Eine Entwicklung der Eidgenössischen Technischen Hochschule Zürich (ETH) könnte in Zukunft die Anzahl der Einbrüche weiter reduzieren oder zumindest die Aufklärungsquote verbessern, die 2018 in Deutschland bei nur 18,1 Prozent lag.

Machine-Learning-Systeme, die auf Basis von Einbruchsstatistiken Muster erkennen und Einbrüche prognostizieren gibt es bereits seit längerem. Aktuell genutzte Predictive-Policing-Systeme funktionieren aber nur zuverlässig in Regionen mit einer hohen Bevölkerungsdichte, da in ländlichen Gebieten nicht ausreichend Daten vorliegen, um daraus Muster erkennen zu können.

Machine-Learning-Algorithmen arbeiten gemeinsam

Laut der im Fachmagazin Decision Support Systems publizierten Forschungsarbeit haben die Wissenschaftler trotz der vorhandenen Klassenungleichgewicht eine Möglichkeit gefunden auch für schwach besiedelte Regionen präzise Prognosen abgeben zu können. Das Team rund um die Informatikerin Cristina Kadar hat dazu vorhandene Machine-Learning-Methoden kombiniert und anhand von Einbruchsdaten des Kantons Aargau die Ergebnisse verglichen.

Machine-Learning- Algorithmen werden mit vorhandenen Daten, das waren im konkreten Fall zum Beispiel die Tageszeit, der Ort und die Bevölkerungsdichte, trainiert, um anschließend neue Daten selbstständig bewerten zu können. Problematisch war dabei, trotz der geringen Anzahl vorhandener Datensätze der ländlichen Regionen die Klassifikations-Algorithmen richtig trainieren zu können.

Random Undersampling

Die Wissenschaftler haben sich aus diesem Grund der statistischen Methode Random Undersampling bedient, die zufällig aus den vorhandenen Daten Einheiten ohne Einbrüche entfernt, bis auch in den ländlichen Datensätze Blöcke mit Einbrüchen und ohne Einbrüche in identischer Anzahl vorhanden sind. Die reduzierten Daten wurden dann genutzt um mehrere Klassifikationsalgorithmen parallel zu trainieren. Anschließend konnte anhand der aggregierte Prognosen der einzelnen Algorithmen vorhergesagt werden, in welcher 200 mal 200 Meter großen Einheiten zu einer bestimmten Uhrzeit das Einbruchsrisiko am höchsten ist. Dies ermöglicht der Polizei vorsorglich in diesem Gebieten mehr Streifenwagen einzusetzen.

Klassifikations-Algorithmen erhalten weitere Daten

Im Gegensatz zu anderen Warnsystemen, die fast ausschließlich Einbruchsdaten für ihre Prognosen nutzen, hat Kadar die Klassifikations-Algorithmen um weitere Daten ergänzt:

  • Bevölkerungsdichte
  • Altersdurchschnitt und Altersverteilung
  • Art der Gebäude
  • Infrastruktur wie zum Beispiel Krankenhäuser, Schulen, Straßen, Polizeiwachen
  • Nähe zur Grenze
  • Zeitliche Faktoren wie Tageszeit, Feiertage, Wochentage

Bei einer Überprüfung der Klassifikations-Algorithmen zeigte, sich dass die von Kadar entwickelte Methode im Vergleich zu herkömmlichen Methoden deutlich präziser ist. Bei Test in ländlichen Gebieten, bei denen Prognosen bisher aufgrund der kleinen Datenbasis nicht möglich waren, wurden 60 Prozent der tatsächlich stattgefundenen Wohnungseinbrüche in Parzellen verübt, die laut der Machine-Learning-Methode besonders gefährdet waren. Bei bisher von der Polizei ausschließlich in Städten genutzten Methode wird, obwohl dort wesentlich umfangreichere Datensätze vorliegen, nur eine Genauigkeit von 53 Prozent erreicht.

Kadar erklärt, dass „die neue Methode mit ungleich verteilten Daten mindestens gleich gute und zum Teil bessere Trefferquoten erzielt als herkömmliche Methoden in städtischen Gebieten, wo die Daten dichter sind und zudem gleichmässiger verteilt.“

Decision Support Systems, doi: 10.1016/j.dss.2019.03.001

Spannend & Interessant
VGWortpixel