Data Science-based identification of co-occurring operational damage events

Overview Challenge and Offer

Operational risk is as great a threat as it is hard to analyze for both financial services and industrial companies.
In spite of complex models in practice, connections between different OpRisk events can hardly be identified in practice, and underlying causes often remain unrecognized.
On the other hand, data science methods have been already established for similar questions and allow the analysis of large amounts of different data in order to identify interdependencies, e.g. in the buying behavior of customers in online trading.

RiskDataScience  has adapted existing data science methods to the requirements of operational risk management and has developed algorithms to identify interdependencies between operational losses.
Herewith, companies are able to identify causal relationships between damages and spend less time in the search for common causes. The entire accumulated knowledge can be used efficiently in order to prevent future damage as far as possible or to anticipate it at an early stage.

Operational Risks


Operational risks can be assigned to the following categories, depending on the cause

  • People: e.g. fraud, lack of knowledge, employee turnover
  • Processes: e.g. .g. transaction errors, project risks, reporting errors, valuation errors
  • Systems: e.g. programming errors, crashes
  • External events: e.g. lawsuits, theft, fire, flooding


Usually, operational risks are categorized according to extent of damage and probability. Accordingly, suitable management strategies are:

  • Avoidance: for big, unnecessary risks
  • Insurance: for big, necessary risks
  • Mitigation: esp. for smaller risks with a high probability of occurrence
  • Acceptance: for risks that are part of the business model

Methods and Problem

The handling of operational risks is strictly regulated, especially in the financial services sector. For example, under Basel II / III, banks must underpin operational risks with equity capital. There are compulsory calculation schemes such as the Standardized Approach (SA) based on flat-rate factors and the Advanced Measurement Approach (AMA). The latter is based on distribution assumptions and will in future be replaced by the SA.

In terms of methodology, the following distinction is made among others between the treatment of operational risks:

  • Questionnaires and self-assessment: probablities and extents are determined in a rather qualitative way
  • Actuarial procedures: these are based on distribution assumptions based on past damage
  • Key risk indicator procedures: easily observable measures are identified that serve for early warning
  • Causal networks: interdependencies are mapped using Bayesian statistics

Interdependencies between and causes of operational risk can either not be determined at all or only in a very complex and error-prone manner.

Detecting relationships using data science techniques

Association analysis

For the analysis of the connections of several different events (“items“) methods from the field of association analysis are recommended.
The respective “market basket analysis” methods have already been established for several years and are used in particular in online commerce (for example, book recommendations in online commerce), search engine proposals or in retail (products on shelves).
Using association analysis, the common occurrence of different events can be identified directly and without distributional assumptions.
The enormous number of possible conclusions can be efficiently and properly limited by means of specially developed measures such as support, confidence and lift.
The analyses require programs based on appropriate analysis tools, e.g. Python, R or RapidMiner.

In addition, we offer a free web app for simple association analysis based on CSV files.

Analysis preparation

First, the damage data must be brought into a usable format for the analysis.
Depending on the type of damage, temporal aggregations (for example on a daily, weekly basis) must also be carried out.
Too often occurring or already explained types of damage have to be removed on the basis of expert assessments.

Analysis conduction

Before the start of the analysis, the criteria for the relevant inference rules should be set according to support and confidence. The determination of the criteria can be supported by graphics.
Subsequently, the conclusions of experts must be made plausible.
The steps should be repeated for all relevant time aggregations.

Use Case: analysis of a fictitious damage database

As an application example, a fictitious loss database of a bank was constructed for an entire year.
There were a total of 23 possible types of damage, including e.g. a flu epidemic, late reports, wrong valuations, and complaints about wrong advice. The following assumptions underlie the test example:

  • Bad transactions are very common
  • Deficiencies in the outsourcer hotline become apparent through requests for PC head crashes
  • Reporting staff usually drive by car and are affected by a snowstorm
  • After a valuation system crashes, wrong valuations occur
  • Thefts occur during work after fire in the meeting room
  • Staff shortages at suppliers lead to failed projects
  • Massive customer complaints after experienced employees leave customer service

Because the wrong transactions were very frequent and incoherent, they were removed first:

Damage frequency

First of all, all determined rules were graphically displayed to find the relevant support and confidence measurements.

Display of the rules on a daily basis

The restriction of the confidence to a minimum of 0.6 gives the list shown below.

Indentified interdependencies on a daily basis

Of the found coincidences, the green ones turn out to be valid after plausibility check.

On a weekly and monthly basis, the procedure was analogous:

Display of the rules on a weekly basis


Identified interdependencies on a weekly basis


Possible interdependencies on a monthly basis

After a plausibility check of possible causal relationships, all assumptions used in the preparation could be identified in the data.

Offer levels for using association analysis in OpRisk

RiskDataScience enables customers to use and develop the described processes efficiently and company-specifically. According to the respective requirements, the following three expansion stages are proposed.

Stage 1: Methodology

  • Introduction to the methodology of association analysis
  • Handover and installation of existing solutions based on Python, R and RapidMiner – or, depending on customer requirements, support of the on-site implementation
  • Transfer and documentation of the visualization and evaluation techniques

Customer is able to independently use and develop methodology.

Stage 2: Customizing

  • Stage 1 and additionally
  • Adaptation and possibly creation of criteria for rule selection according to circumstances of the respective customer
  • Analysis of specific risks, processes and systems to identify optimal applications
  • Development of a process description for an efficient use
  • Communication and documentation of results to all stakeholders

Customer has custom procedures and operational risk analysis processes.

Stage 3: IT Solution

  • Stage 1, Stage 2, and additionally
  • Specification of all requirements for an automated IT solution
  • Suggestion and contacting of potential providers
  • Support in provider and tool selection
  • Assistance in planning the implementation
  • Professional and coordinative support of the implementation project
  • Technical support after implementation of the IT solution

Customer has automated IT solution for efficient association analysis of operational risks.

Depending on customer requirements, a flexible design is possible. We are happy to explain our approach as part of a preliminary workshop.


Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience GmbH
Nördliche Münchner Straße 47, 82031 Grünwald
Telefon: +4989322096365
Twitter: @riskdatascience

Transparente Tools zum Financial Risk Management

Übersicht Problemstellung und Angebot

Financial Risks spielen auch außerhalb der großen Finanzdienstleister – etwa bei Corporates und Kommunen, aber auch im Crowd Funding und Peer to Peer Lending – eine wichtige Rolle.
Während größere Finanzdienstleister – auch auf regulatorischen Druck hin – hochkomplexe Financial Risk-Verfahren im Einsatz haben, werden außerhalb dieses Sektors oft aus Unwissen unnötig hohe Risiken eingegangen.
Financial Risk-Methoden haben sich andererseits bereits seit Jahrzehnten etabliert und müssen – je nach Geschäftsfeld – nicht unbedingt komplex sein.

RiskDataScience verfügt über lauffähige Tools zu den gängigen Financial Risks sowie zu Bewertungsverfahren elementarer Produkte.

Kunden können damit auf transparente Weise ihre eigenen Risiken bewerten und ihr Know How auf diesem Gebiet ausbauen.
Die Methoden sind alle einsehbar und können beliebig angepasst und weiterentwickelt werden.

Mit unserer kostenlosen Web-App FX Risk ermöglichen wir zudem die Berechnung von Fremdwährungsrisiken für ganze Portfolien.

Financial Risks — auch außerhalb großer Fianzdienstleister ein wichtiges Thema

Kleine Finanzdienstleister

Trotz ihres kleineren Geschäftsvolumens und oftmals spezialisierter Geschäftsmodelle sind kleine Finanzdienstleister – Banken, Versicherungen, Leasinggesellschaften und Asset Manager – prinzipiell denselben Financial Risks ausgesetzt wie verwandte große und mittelgroße Finanzdienstleister.
Regulatorisch betrachtet sind die Auflagen und der daraus resultierende Aufwand relativ gering, allerdings müssen kleine Finanzdienstleister mit einer im Allgemeinen dünnen Personaldecke auskommen und sind dementsprechend auf effiziente und robuste Verfahren angewiesen.

Wesentliche Financial Risks sind – je nach Geschäftsfeld – insbesondere Marktrisiken (aufgrund von Preis-Schwankungen bei Investment- und Funding-Produkten), Kreditrisiken (insb. bei Banken) und operationelle Risiken.
Für das Financial Risk Management wird oftmals spezialisierte Software verwendet, diese ist aber nur als „Blackbox“ verfügbar und kann weder eingesehen noch frei angepasst werden

Corporates & Kommunen

Insbesondere die Treasury-Abteilungen von Corporates, Kommunen oder gemeinnützigen Organisationen müssen beim Funding über den Kapitalmarkt oder bei diesbezüglichen Investitionen Marktrisiken in Kauf nehmen.
Entsprechend groß ist das Interesse sich über Hedges abzusichern. Hier ist man jedoch in der Regel auf das Know How von Banken angewiesen, eine unabhängige Kontrolle von Preisen und Risiken von Derivaten ist nicht immer möglich.
Die Quantifizierung operationeller Risiken ist ein weiterer Themenkreis, für den nicht immer adäquate Methoden vorhanden sind.


FinTechs – etwa im Bereich Crowd Funding, Peer to Peer Lending oder Robo Advisory – bieten effizient Finanzdienstleistungen an und punkten mit disruptiven Geschäftsmodellen.
Andererseits stoßen sie bei möglichen Kunden oft nach wie vor auf Akzeptanzprobleme und sehen sich möglichen künftigen regulatorischen Risiken gegenüber.

Umso wichtiger ist es hier eigenes Know How im Financial Risk aufzubauen und die Risiken für die Kunden zu minimieren bzw. transparenter zu machen:

  • Kreditrisiko: Z.B. beim Peer to Peer Lending
  • Marktrisiko: Z.B. bei Robo Advisory
  • Operationelles Risiko: Bei Payments, etc.

Financial Risk-Kategorien

Die quantifizierbaren Financial Risks lassen sich mehreren Gruppen zuordnen.


Unter Kreditrisiken versteht man Risiken durch Kreditereignisse, wie Zahlungsausfall, Zahlungsverzug, Herabstufung der Kreditwürdigkeit oder Einfrierung der Währung.
Eine weitere Unterscheidung betrifft die Einteilung in Emittenten- (bei Anleihen), Kontrahenten- (bei Derivate-Geschäften) und Kreditausfallrisiken von Kreditnehmern i.e.S.
Die Messung von Kreditrisiken erfolgt insb. über Ratings. Diese erfordern eine hinreichend große historische Referenz-Datenbank, die quantitative (z.B. Verschuldungsgrad, Eigenkapitalquote) und qualitative Kennzahlen (z.B. Qualität des Managements, Zukunftsaussichten) für Unternehmen bekannter Bonität enthält.
Im Falle mehrerer Kredite sind zudem Ausfallkorrelationen und hieraus Diversifikationseffekte (im positiven Fall) oder Klumpenrisiken (im negativen Fall) zu beachten.


Marktrisiken resultieren aus der Möglichkeit ungünstiger Änderungen relevanter Marktparameter wie Zinsen, Wechselkurse, Credit Spreads, Aktien- und Anleihekursen, Volatilitäten oder Rohstoffpreisen.
Die Risiken manifestieren sich in Preisänderungen von Wertpapieren und Derivaten.
Marktrisiken betreffen beide Seiten der Bilanz und machen sich auch bei Finanzierungen über Kredite bemerkbar.
Im Unterschied zu den übrigen Risiken können sich bei hohen Marktrisiken auch hohe Chancen ergeben.

Operationelle Risiken

Operationelle Risiken lassen sich je nach Ursache den folgenden Kategorien zuteilen

  • Menschen: z.B. Betrug, mangelnde Kennt-nisse, Mitarbeiter-Fluktuation
  • Prozesse: z.B. Transaktionsfehler, Projekt-risiken, Reportingfehler, Bewertungsfehler
  • Systeme: z.B. Programmierfehler, Abstürze
  • Externe Ereignisse: z.B. Klagen, Diebstahl, Feuer, Überschwemmungen

Angebotene Tools

Im Folgenden werden Financial Risk-Verfahren aus dem Portfolio von RiskDataScience vorgestellt. Die funktionsfähigen Tools sind alle transparent und einsehbar und – bis auf das Kreditrating-Tool – auf VBA- bzw. Python-Basis entwickelt worden.


Das Rating-Tool von RiskDataScience basiert im Gegensatz zu den übrigen Risk-Tools auf der freien Mining-Software RapidMiner (Version 5.3). Methodisch ist es an das z-Score-Modell von Altman (Regression von Kennzahlen aus Bilanzdaten) angelehnt.


Für die Analyse der Bilanzdaten werden Data Mining-Methoden aus dem Bereich Data Science / Machine Learning genutzt. Die hierfür relevanten Supervised Learning-Algorithmen werden wie folgt eingesetzt

  • Die Algorithmen werden mit bekannten Datensätzen darauf „trainiert“ Datensätzen den jeweiligen Kategorien (insolvent gegangenes – nicht insolvent gegangenes Unternehmen) zuzuordnen
  • Unbekannte Fälle können anschließend bekannten Kategorien mit bestimmten Konfidenzen zugeordnet werden
  • Die Güte der Klassifikation wird mittels spezifischer Kennzahlen und Validierungsverfahren wie der Accuracy (Trefferquote), der Area Under the Curve (AUC; Plot Anteil True Positives über Anteil False Positives) oder Lift-Kurven (Pareto-Plot; Effektivitätstest mittels Vergleich mit Zufallsauswahl) überprüft


Aus den veröffentlichten Bilanzen und GuVs aus dem jeweiligen Jahr vor der Insolvenz müssen für das Trainings-Sample gemäß z-Score-Modell Kennzahlen wie

  • Eigenkapital / Assets
  • Gewinnrücklagen / Assets
  • EBIT / Assets
  • Eigenkapital / Schulden
  • Umsatzerlöse / Assets

ermittelt werden. Die gleichen Kennzahlen sind zudem für ein Referenz-Set nicht insolvent gegangener Unternehmen zu bilden.

Generell muss hier angemerkt werden, dass die Qualität des Rating-Verfahrens mit der Anzahl und Güte der ermittelten Daten ansteigt.


Nach Ermittlung der Portfoliostruktur erfolgt ein Supervised Learning mittels Trainings-Sample (Unternehmen mit bekannter Zuordnung).
In Betracht kommt hier insb. der Algorithmus W-Logistic (modifizierte logistische Regression), aber auch Verfahren wie Rule Induction (Ermittlung von Regeln) und Random Forest (Set von zufälligen Entscheidungsbäumen).
Anschließend können die trainierten Algorithmen auf zu ratende Unternehmen zur sofortigen Klassifikation angewendet werden.


Anhand der Bilanzkennzahlen von über 50 insolvent gegangenen Unternehmen (aus dem Jahr vor der Insolvenz) sowie entsprechender nicht-insolventer Referenz-Unternehmen wurden die Kennzahlen gemäß z-Score-Modell berechnet.
Die Analyse wurde mittels des RapidMiner-Tools durchgeführt und ergab Trefferquoten von über 70%.
Auch die Area Under the Curve und die Lift-Kurven deuten auf eine hohe Rating-Güte hin (s. u.).

AUC In-Sample-Test
Lift-Kurve In-Sample-Test


RiskDataScience bietet Routinen auf VBA-Basis zu folgenden Themen an

  • Kreditausfälle: Anhand eines vorgegebenen Ratings und einer Migrationsmatrix werden Ausfallwahrscheinlichkeiten über einen mehrjährigen Zeitraum berechnet. Zudem erfolgt u.a. die Berechnung der marginalen und kumulativen Ausfallwahrscheinlichkeit sowie der Überlebensrate.
  • Marktmethoden
    • Berechnung der impliziten Ausfallwahrscheinlichkeit aus risikolosem und tatsächlichem Zins
    • Berechnung der Ausfallwahrscheinlichkeit nach dem Merton-Modell
    • Berechnung der „gestressten“ Ausfallwahrscheinlichkeit unter Berücksichtigung von Marktkorrelationen (Basel II-Formel)
  • Ausfall-Anteil
    • Ermittlung von Fit-Kurven anhand (bilanzieller) Kennzahlen und externer Ratings als mögliche Berechnungsgrundlage für interne Ratings
    • Berechnung von Kennzahlen wie α, β und
    • Fit durch lineare oder logistische Interpolation
  • Backtesting: Gegenüberstellung von Ausfallwahrscheinlichkeiten und tatsächlichen Ausfällen zur Modell-Validierung sowie Ermittlung des Gini-Koeffizienten als Maß für die Trennschärfe des zu validierenden Rating-Verfahrens
  • Portfolio-VaR: Ermittlung des gesamten Value at Risks für ein Portfolio mit bekannten Teil-Value at Risks und bekannter Korrelationsmatrix.
    Das Verfahren ist generisch und kann auch für andere Risikoarten verwendet werden.


RiskDataScience bietet Routinen auf VBA-Basis zu folgenden Themen an

  • PV aus Cashflows
    • Berechnung des Barwerts (Present Value, PV) aus vorgegebenen Cashflow-Zeitreihen
    • Berücksichtigung unterschiedlicher Tageszählkonventionen (act/act, 30/360,…) und Diskontierungsmethoden
    • Berechnung von Clean und Dirty PV, Duration und Konvexität
  • VaR
    • Ermittlung des Value at Risks für eine vorgegebene Zahlenmenge und vorgeg. Konfidenzniveau
    • Ermittlung weiterer Kennzahlen wie Standardabweichung, Expected Shortfall und erwartete Anzahl an Ausreißern
  • Optionen
    • Preisermittlung für Call- und Put-Optionen anhand der Black-Scholes-Formel
    • Ermittlung der Sensitivitäten Delta, Gamma, Rho, Theta und des Value at Risk (VaR) auf Black-Scholes-Basis
    • Des weiteren Preisermittlung nach dem Garman-Kohlhagen-Modell
  • Stückzins
    • Berechnung des Barwerts (Present Value, PV) aus vorgegebenen Cashflow-Zeitreihen
    • Berücksichtigung unterschiedlicher Tageszählkonventionen (act/act, 30/360,…)
    • Berechnung von Clean und Dirty PV sowie des Stückzinses (Accrued Interest)
  • Zinskurven
    • Umfassendes Tool zur Berechnung von Barwert, Zinssensitivitäten (Basis Point Value, BPV) sowie des VaR auf Varianz-Kovarianz-Basis aus Cashflow-Zeitreihen, Zinskurven und der Zins-Korrelationsmatrix
    • Außerdem Ermittlung des Par Yield-Zinses und der Forward-Zinskurve
  • Zins-Derivate: Ermittlung von Barwerten unter Berücksichtigung von Zinskurven Zinskurven für die Zins-Derivate Swaps, Forward Rate Agreements (FRAs), Futures, Caps und Floors


Das RiskDataScience OpRisk-Tool berechnet den VaR für den Fall unkorrelierter operationeller Risiken mit bekanntem Schadensausmaß und bekannter Häufigkeit.

Angebotsstufen für eine Nutzung der Financial Risk-Tools

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und unternehmensspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Methodik der jeweils relevanten Tools
  • Übergabe und Installation der vor-handenen Lösung auf VBA-Basis (OpenOffice) inkl. Dokumentation – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Installation der vorhandenen RapidMiner-Lösung für Kredit-Ratings – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
    Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln.


Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Eruierung der für den Kunden relevanten Risiken und Auswahl sowie ggf. Anpassung der entsprechenden Tools
  • Anfertigung einer methodischen Beschreibung mit dem gewünschten Detaillierungsgrad
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholder
    Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse von Financial Risks.


Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter und Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung sowie fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung
    Kunde verfügt über automatisierte IT-Lösung für Financial Risk-Berechnungen.


Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.


Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience GmbH
Nördliche Münchner Straße 47, 82031 Grünwald
Telefon: +4989322096365
Twitter: @riskdatascience