Machine Learning-Based Classification of Market Phases

Introduction

The experience of the recent years as well as research results and regulatory requirements suggest the consideration of market regimes. Nevertheless, the largest part of today’s financial risk management is still based on the assumption of constant market conditions.
Currently, neither “stressed” market phases nor potential bubbles are determined in an objective way.
Machine learning procedures, however, enable a grouping according to risk aspects and a classification of the current market situation.
RiskDataScience has already developed procedures to identify market phases.
Market regimes can be determined on the basis of flexible criteria for historical time series. The current market conditions can be assigned to the respective phases. Thus, it is possible to determine if the current situation corresponds to past stress or bubble phases. In addition, historic stress scenarios can be detected in a systematic way.

Market Phases

In contrast to the efficient market theory, markets are characterized by exaggerations and panic situations (new economy, real estate bubbles,…).
Crises exhibit their own rules – like increased correlations – and behave differently from “normal” phases. In the curse of the crises since 2007/2008, the situation has changed dramatically several times (negative interest rates, quantitative easing,…).

Regulators have realized that market situations can differ in a significant way and require the consideration of stressed market phases e.g. in the

  • determination of “stressed VaR” periods
  • definition of relevant stress scenarios

In the conventional market risk management of financial institutions, however, still only uniform market conditions are considered (e.g. in conventional Monte Carlo simulations).
Historic simulations implicitly consider market phases, but they don’t provide assertions which pase applies to specific situations.
Finally, models like GARCH or ARIMA could’t establish themselves outside academic research.

The neglection of market phases implies several problems and risks.
First, a non-objective determination of stressed market phases for regulatory issues can lead to remarks and findings by internal and external auditors. Thus, eventually sensible capital relief can be denied since a less conservative approach can’t be justified in an objective way.
Also, ignoring possibly dangerous current market situations increases the risk of losses by market price fluctuations. In addition, bubbles are not detected in a timely manner and the “rules” of crises (like increased correlations) are not considered in an appropriate way.
On the other hand, a too cautious approach may result in missed opportunities.

Machine Learning Approaches

For the analysis of the relevant market data, several data science / machine learning algorithms can be considered and implemented with tools like Python, R, Weka or RapidMiner. Here, the following groups of algorithms can be discerned:

  • Unsupervised learning algorithms: These algorithms can be used for the determination of “natural” clusters and the grouping of market data according to predefined similarity criteria. This requires appropriate algorithms like kmeans or DBSCAN as well as economic and financial domain expertise. Also, outlier algorithms can be used to detect anomalous market situations, e.g. as basis for stress test scenarios.
  • Supervised learning algorithms: The algorithms (e.g. Naive Bayes) are “trained” with known data sets to classify market situations. Then, new data – and especially the current situation – can be assigned to the market phases.

For a risk-oriented analysis, market data differences (e.g. in the case of interest rates) or returns (e.g. in the case of stock prices) must be calculated from the market data time series as a basis for the further analysis. Further, a “windowing” must be conducted, viz. the relevant values of the previous days must be considered as additional variables.

Use Case: Analysis of Illustrative Market Data

The analysis described below was based on a market data set consisting of the DAX 30 index, the EURIBOR 3M interest rate, and the EURUSD FX rate. The time period was end of 2000 till end of 2016. For the calculations, consistenly daily closing prices were used as basis for the return (DAX 30, EURUSD) and difference calculations (EURIBOR 3M). Eventual structural breaches were adjusted and missing return values were replaced by zeros. The windowing extended to the last 20 days.

Time series of analyzed market data

The data set was analyzed with the clustering algorithms kmeans and DBSCAN. As a result, most points in time could be assigned to a large “normal cluster”. The rest of the data points fell into a smaller “crisis” cluster.
Since – as it was observed – crisis phases often precede “real” crashes, the procedure could be helpful as “bubble detector”.

Identified market phases

The main identified outliers were the

  • spring of 2001: Burst of the dotcom bubble
  • autumn 2001: September 11
  • autumn 2008: Lehman insolvency
    The current time period is not classified as crisis, the extraordinary situation of negative interest rates counsels caution, however.

Based on a training set of 3,000 points of time, the classification algorithms were trained and applied on a test set of 1,000 points.
An appropriate simple algorithm was Naive Bayes; with this algorithm accuracies of over 90% were reached in in-sample as well as out-of-sample tests.

Hence, an efficiend distinguishing of market phases is already realized and a usage as bubble detector possible after economically and financially sound validations.

 

The methods can be enhanced to capture more complex cases and issues, e.g. for specialized markets like the electricity market as well as patterns and rules characteristic for the high-frequency trading (HFT).

We are developing respective methods and tools and support our customers in obtaining an overall perspective of the data in use.

Contact

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

An NLP-Based Analysis of the Banking Regulation “RTS on Procedures for Excluding Third Country NFCS from CVA Risk Charge” in 15 Minutes

Regulations pose hardly manageable challenges for banks as more and more voluminous requirements are added to an already extremly complex environment.
Often, the regulations require significant changes in the banks’ methods, processes and/or systems and can have an additional impact on the capital requirements and hence the business model of the banks.
Projects dealing with regulatory issues cost the banks in total several billions of Euros and bind immense expert resources. Furthermore, the timelines for fulfilling the requirements are very tight and require fast decisions.
On the other hand, banks already have enormous knowledge resources for dealing with the challenges: External and internal texts, like the regulatory texts themselves or project documentations and audit findings, contain abundant information about a wide range of issues.
Hence, an efficient analysis of the information can provide substantial enhancements of the banks’ capabilities to deal with regulatory issues. RiskDataScience has already developed respective concepts and tools and is further enhancing them together with partner companies.

The article at hand deals with the exemplary machine learning / natural language processing-based analysis of a new regulatory text with our specially developed tools. The emphasis of the analysis presented lies on speed, since the self-imposed target is to obtain all the results “in 15 minutes” once everything is properly set up.
The analyzed regulation is the “RTS on Procedures for Excluding Third Country NFCS from CVA Risk Charge“. Mainly, it’s about excluding transactions with non-financial counterparties established in a third country from the own funds requirement for credit valuation adjustment risk.

Our 15-minutes analysis starts with the superb Python “summarize” tool which provides short summarizations of texts. In this case the summarization is

EBA final draft Regulatory Technical Standards on the procedures for excluding transactions with non-financial counterparties established in a third country from the own funds requirement for credit valuation adjustment risk under Article 382(5) of Regulation (EU) No 575/2013 (Capital Requirements Regulation Œ CRR) RTS ON PROCEDURES FOR EXCLUDING THIRD COUNTRY NFCS FROM CVA RISK CHARGE 9 EUROPEAN COMMISSION Brussels, XXX [–](2015) XXX draft COMMISSION DELEGATED REGULATION (EU) No –/..

Hmm, sounds familiar. The algorithm apparently has extracted the basic information of the text.

The next step is a cosine similarity comparison with other regulatory texts via the semantic analysis method LSI (Latent Semantic Indexing). The regulatory texts at hand were Basel 2, Basel 3, CRD IV, CRR, and EMIR.
As one should expect, the similarities to CRR and CRD IV should be very high, there should be some similarities to EMIR, few to Basel 3 (due to the CVA context) and nearly none to Basel 2.
These are the results:

  • CRD IV: 0.964
  • CRR: 0.891
  • EMIR: 0.667
  • Basel 3: 0.327
  • Basel 2: 0.082

Again, as expected.

Now, the speed advantage of automatic analyses comes into play, as the last analysis deals with a sentence-by-sentence comparison. For this, our program splits the RTS text and finds out each CRR sentence with the highest similarity. The – at the first glance plausible – results can be downloaded here as tab-separated csv:

highest_similarity

This concludes our analysis – since the timeline is just below 15 minutes.

 

The method can be enhanced to capture more complex cases and issues, like the identification of the legal basis of inquiries or the examination of “regulatory gap networks”.

We are developing respective methods and tools and support our customers in obtaining an overall perspective of the regulatory data in use.

Contact

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Data Science-basierte Identifizierung zusammenhängender operationeller Schadensereignisse

(For the English version click here)

Übersicht Problemstellung und Angebot

Operationelle Risiken stellen sowohl für Finanzdienstleister als auch für Industrieunternehmen eine ebenso große wie schwer zu analysierende Bedrohung dar.
Zusammenhänge zwischen verschiedenen OpRisk-Ereignissen können hierbei trotz komplexer Modelle in der Praxis kaum identifiziert werden und tieferliegende Ursachen bleiben oft unerkannt.
Andererseits haben sich Data Science-Verfahren für ähnliche Fragestellungen bereits etabliert und ermöglichen die Untersuchung großer Mengen unterschiedlicher Daten nach Zusammenhängen, etwa im Bereich der Analyse des Kaufverhaltens von Kunden im Onlinehandel.

RiskDataScience hat entsprechende Verfahren auf die Gegebenheiten operationeller Risiken angepasst und verfügt über bereits entwickelte Algorithmen zur Identifizierung von Interdependenzen zwischen operationellen Schäden.
Unternehmen können damit Kausalbeziehungen zwischen Schäden ausfindig machen, wodurch die Suche nach gemeinsamen Ursachen erleichtert wird. Das gesamte angesammelte Wissen kann effizient genutzt werden, um künftige Schäden möglichst zu vermeiden bzw. frühzeitig zu antizipieren.

Operationelle Risiken

Arten

Operationelle Risiken lassen sich je nach Ursache den folgenden Kategorien zuteilen

  • Menschen: z.B. Betrug, mangelnde Kenntnisse, Mitarbeiter-Fluktuation
  • Prozesse: z.B. Transaktionsfehler, Projektrisiken, Reportingfehler, Bewertungsfehler
  • Systeme: z.B. Programmierfehler, Abstürze
  • Externe Ereignisse: z.B. Klagen, Diebstahl, Feuer, Überschwemmungen

Management

Für gewöhnlich werden operationelle Risiken nach Schadensausmaß und Wahrscheinlichkeit kategorisiert. Entsprechend kommen als Managementstrategien infrage:

  • Vermeidung: Bei großen, unnötigen Risiken
  • Versicherung: Bei großen, nötigen Risiken
  • Verminderung: Insb. bei kleineren Risiken mit hoher Eintrittswahrscheinlichkeit
  • Inkaufnahme: Bei Risiken, die zum Geschäftsmodell gehören

Methoden und Problematik

Die Handhabung operationeller Risiken ist insbesondere im Finanzdienstleistungssektor streng geregelt. So müssen Banken nach Basel II/III operationelle Risiken mit Eigenkapital unterlegen. Hierfür gibt es vorgeschriebene Rechenschemata wie den auf pauschalen Faktoren basierenden Standardized Approach (SA) und den Advanced Measurement Approach (AMA). Letzterer basiert auf Verteilungsannahmen und wird künftig durch den SA ersetzt.

Methodisch unterscheidet man bei der Behandlung operationeller Risiken u.a. zwischen

  • Fragebögen und Self-Assessment: Es werden eher qualitativ Wahrscheinlichkeiten und Ausmaße ermittelt
  • Aktuariellen Verfahren: Diese basieren auf Verteilungsannahmen anhand vergangener Schäden
  • Key Risk Indicator-Verfahren: Es werden einfach beobachtbare Maße identifiziert, die zur Frühwarnung dienen
  • Kausale Netzwerke: Wirkzusammenhänge werden mittels Bayes-Statistik abgebildet

Zusammenhänge zwischen und Ursachen von operationeller Risiken können entweder überhaupt nicht oder nur auf sehr komplexe und fehleranfällige Weise ermittelt werden.

Erkennung von Zusammenhängen mittels Data Science-Verfahren

Assoziationsanalyse

Für die Analyse der Zusammenhänge mehrerer unterschiedlicher Ereignisse („Items“) bieten sich Methoden aus dem Gebiet der Assoziationsanalyse („Association Analysis“) an.
Entsprechende Methoden aus dem Bereich der Warenkorbanalyse haben sich bereits seit einigen Jahren etabliert und finden insbesondere im Online-Handel (z.B. Buchvorschläge im Online-Handel), Suchmaschinenvorschlägen oder im Einzelhandel (Produkte in Regalen) Verwendung.
Mittels der Assoziationsanalyse lässt sich das gemeinsame Auftreten unterschiedlicher Ereignissen unmittelbar und ohne Verteilungsannahmen identifizieren.
Die enorme Vielzahl möglicher Schlussfolgerungen lässt sich mittels eigens hierfür entwickelter Maße wie Support, Confidence und Lift effizient und sachgerecht einschränken.
Die Analysen erfordern Programme auf der Basis entsprechender Analysetools, wie z.B. R oder RapidMiner.

Zusätzlich bieten wir eine freie Web-App für einfache Assoziationsanalysen auf der Basis von CSV-Dateien an.

Analyse-Vorbereitung

Zunächst müssen die Schadensdaten in ein für die Analyse brauchbares Format gebracht werden.
Je nach Schadensart sind zudem zeitliche Aggregationen (z.B. auf Tages-, Wochenbasis) vorzunehmen.
Zu häufig vorkommende oder bereits erklärte Schadensarten sind – anhand von Experteneinschätzungen – zu entfernen.

Analyse-Durchführung

Vor dem Analysebeginn sind die Kriterien für die Schlussfolgerungsregeln gemäß Support und Confidence festzulegen. Die Festlegung der Kriterien kann (z.B. bei R) durch Grafiken unterstützt werden.
Anschließend müssen die Schlussfolgerungen von Experten plausibilisiert werden.
Die Schritte sind für alle relevanten zeitlichen Aggregationen zu wiederholen.

Anwendungsbeispiel: Analyse einer fiktiven Schadensdatenbank

Als Anwendungsbeispiel wurde eine fiktive Schadensdatenbank einer Bank für ein gesamtes Jahr konstruiert.
Es lagen insgesamt 23 mögliche Schadensarten vor, darunter z.B. eine Grippewelle, verspätete Reports, falsche Bewertungen, und Klagen wegen Falschberatung. Folgende Annahmen lagen dem Testbeispiel zugrunde:

  • Fehlerhafte Transaktionen sind sehr häufig
  • Mängel bei Outsourcer-Hotline werden bei Anfragen wg. PC-Headcrashes deutlich
  • Reporting-Mitarbeiter fahren meist Auto und sind von Schneesturm betroffen
  • Nach Abstürzen des Bewertungs-Systems kommt es zu Falschbewertungen
  • Diebstähle während Arbeiten nach Brand im Besprechungsraum
  • Personalengpässe bei Lieferanten führen zu gescheiterten Projekten
  • Massive Kundenbeschwerden nach Abgang von Kundenbetreuern

Da die fehlerhaften Transaktionen sehr oft und unzusammenhängend auftraten, wurden sie als erstes entfernt:

Häufigkeit der Schäden

Zunächst wurden – zur Ermittlung der relevanten Support- und Confidence-Maße sämtliche ermittelte Regeln grafisch dargestellt.

Auftragung der Schluss-Regeln auf Tagesbasis

Nach Einschränkung der Confidence auf ein Mindestmaß von 0,6 ergibt die u.g. Liste.

Identifizierte Zusammenhänge auf Tagesbasis

Von den gefundenen Koinzidenzen erweisen sich – nach Plausibilisierung – die grün markierten als valide.

Auf Wochen- und Monatsbasis wurde analog vorgegangen:

Auftragung der Schluss-Regeln auf Wochenbasis

 

Identifizierte Zusammenhänge auf Wochenbasis

 

Mögliche Zusammenhänge auf Monatsbasis

Nach entsprechender Plausibilisierung möglicher kausaler Beziehungen konnten sämtliche bei der Erstellung gebrauchten Annahmen in den Daten identifiziert werden.

Angebotsstufen für einen Einsatz der
Assoziationsanalyse im OpRisk

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und unternehmensspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in die Methodik der Assoziationsanalyse
  • Übergabe und Installation der vorhandenen Lösungen auf R– und RapidMiner-Basis – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken

Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln.

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Anpassung und ggf. Neuerstellung von Kriterien zur Regelauswahl gemäß Gegebenheiten des jeweiligen Kunden
  • Analyse der konkreten Risiken, Prozesse und Systeme zur Identifizierung optimaler Einsatzmöglichkeiten
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholde

Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse operationeller Risiken.

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter
  • Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung
  • Fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung

Kunde verfügt über automatisierte IT-Lösung zur effizienten Assoziationsanalyse operationeller Risiken.

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

The Risk of Data Science – Calculating a Classification Value at Risk

Classification algorithms are widely used for detecting a diverse amount of possibly negative events, like fraud or insolvencies.
The reliability of the classifications is generally measured with key figures like accuracy, precision or recall.

Companies using classification algorithms, however, are generally also interested in the actual financial extent of the damage.
Here, they also are often not only interested in the expected extent, but also in the possible extent for negative worst case scenarios.
Hence, classical risk figures for classification predictions (like the Value at Risk; VaR) are very useful.

The follwing text describes an approach for obtaining a Classification VaR (for False Negatives) from a conventional confusion matrix.

The calculation is based on the following assumptions:

  • The False Negative rate is known from the model validation
  • False Negatives are independent and binomially distributed
  • The extent (for single events) and distribution of the possible damages is known

Based on these assumptions, the Classification VaR can be calculated via a Monte Carlo simulation. Here, one has to take care that the calculations can become very fast very time consuming, since many scenarios are necessary to capture high confidence levels.

RiskDataScience developed a Monte Carlo simulation for calculating the Classification VaR and applied it to the following case.

Starting from a known confusion matrix, the appropriate TP, TN, FP and FN rates are calculated. It is assumed that the detection of harmful events (True Positives) prevents the company from financial losses. However, damages are caused due to undetected False Negatives.

The damage extents of the example belong to several known damage classes, each one occuring with a known probability of 10%.

The new – unknown – sample consists of 17,926 instances. In order to calculate the Classification VaR at a confidence level of 95%, a Monte Carlo simulation with 1,000 scenarios was started. In each scenario, the value for each instance was randomly obtained and summed up. The scenarios were sorted and the VaR was directly retrieved from the appropriate scenario.

In this case, the Classification VaR at 95% is € 42 mn, while the mean expected loss would be just € 36 mn; hence one expects at least an additional damage of € 6 mn in the 5% worst case scenarios.

The method can be enhanced to capture more complex cases.

We have developed respective methods and tools and support our customers in obtaining an overall risk perspective of the data science procedures in use.

Contact

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Gruppierung und Klassifikation geografischer Adressen

Übersicht Problemstellung und Angebot

Aus der Analyse geografischer Koordinaten können in vielfacher Hinsicht wertvolle Einsichten gewonnen werden. So ist bei der Bewertung und dem Vergleich von Immobilien insbesondere die räumliche Lage ein entscheidendes Kriterium. Lagekoordinaten können darüber hinaus wichtige Zusatzinformationen für verschiedenste Risikobewertungen und Marketinganalysen liefern.
Bei sehr vielen Adressen sind die tatsächlichen räumlichen Standorte und ihre Abstände voneinander jedoch nicht unmittelbar ersichtlich. Das (manuelle) Eintragen in Karten gestaltet sich aufwendig und führt zu keinen weiteren quantitativen Erkenntnissen.
RiskDataScience verfügt über Methoden zur effizienten Ermittlung geografischer Koordinaten und deren Auswertung mittels Machine Learning-Verfahren.
Die geografischen Positionen der zu analysierenden Objekte können unmittelbar als Grafik dargestellt werden. Klassifikations-Algorithmen können erkennen inwiefern sich die Lage auf Objektkriterien wie Preis, Qualität, Risiko usw. auswirkt. Gruppierungs-Algorithmen können Cluster und räumliche Konzentrationen gleichartiger Objekte erkennen und lokale Ausreißer identifizieren.

Anwendungsbeispiel

Zunächst wurden die Adressen und Stern-Anzahlen von insgesamt 190 Münchner Hotels ermittelt.
Die Hotels wurden in die Kategorien „günstig“ (2 und 3 Sterne) und „gehoben“ (4 und 5 Sterne) eingeteilt.
Mittels R Studio wurden automatisch Google-Routinen zur Ermittlung der Koordinaten aus den Adressen aufgerufen.

Geo-Koordinaten 2-/3-Sterne Hotels (rot) und 4-/5-Sterne-Hotels (blau)

Die Koordinaten wurden in RapidMiner importiert und dort weiter ausgewertet.

Dabei wurden zunächst Insample-Tests zur Klassifikation der Kategorien „günstig“ und „gehoben“ durchgeführt.
Die besten Resultate lieferte ein Ensemble-Modell. Die Accuracy konnte allerding nicht auf mehr als 63% gesteigert werden, weswegen nur von einem schwachen Einfluss des Ortes auf die Stern-Anzahl auszugehen ist.

Bei der Gruppierung der Hotels wurden 4 deutliche Cluster im Stadtzentrum identifiziert. Der größte Cluster „1“ (Bahnhofsnähe) beinhaltet dabei 54 und damit 28% der betrachteten Münchner Hotels.

Hotel-Cluster

Insgesamt lässt sich damit selbst für dieses einfache Bespiel auf quantitative Weise der Schluss ziehen, dass es in München einerseits keine ausgeprägte räumliche Trennung günstiger und gehobener Hotels gibt und andererseits deutliche Hotel-Konzentrationen im Stadtzentrum vorhanden sind.

Angebotsstufen für eine Nutzung der Tools zur Analyse geografischer Koordinaten

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und unternehmensspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende zwei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Methoden zur effizienten Ermittlung geografischer Koordinaten mittels der kostenfreien Software R Studio und Google (2.500 Adressen/Tag)
  • Einweisung in Klassifikations- und Gruppierungs-Verfahren mittels der kostenfreien Software RapidMiner (Version 5.3)
  • Übergabe und Installation der vorhandenen R Studio- und RapidMiner-Lösungen inklusive dokumentierter Arbeitsschritte zur Datenbereinigung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken
    Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln

Stufe 2: IT-Lösung

  • Stufe 1 und  zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte, ggf. webbasierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter
  • Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung
  • Fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung
    Kunde verfügt über automatisierte IT-Lösung zur Ermittlung geografischer Koordinaten aus Adressen sowie der automatischen Klassifikation und Gruppierung der Adressen nach örtlichen Gesichtspunkten

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Transparente Tools zum Financial Risk Management

Übersicht Problemstellung und Angebot

Financial Risks spielen auch außerhalb der großen Finanzdienstleister – etwa bei Corporates und Kommunen, aber auch im Crowd Funding und Peer to Peer Lending – eine wichtige Rolle.
Während größere Finanzdienstleister – auch auf regulatorischen Druck hin – hochkomplexe Financial Risk-Verfahren im Einsatz haben, werden außerhalb dieses Sektors oft aus Unwissen unnötig hohe Risiken eingegangen.
Financial Risk-Methoden haben sich andererseits bereits seit Jahrzehnten etabliert und müssen – je nach Geschäftsfeld – nicht unbedingt komplex sein.

RiskDataScience verfügt über lauffähige Tools zu den gängigen Financial Risks sowie zu Bewertungsverfahren elementarer Produkte.

Kunden können damit auf transparente Weise ihre eigenen Risiken bewerten und ihr Know How auf diesem Gebiet ausbauen.
Die Methoden sind alle einsehbar und können beliebig angepasst und weiterentwickelt werden.

Mit unserer kostenlosen Web-App FX Risk ermöglichen wir zudem die Berechnung von Fremdwährungsrisiken für ganze Portfolien.

Financial Risks — auch außerhalb großer Fianzdienstleister ein wichtiges Thema

Kleine Finanzdienstleister

Trotz ihres kleineren Geschäftsvolumens und oftmals spezialisierter Geschäftsmodelle sind kleine Finanzdienstleister – Banken, Versicherungen, Leasinggesellschaften und Asset Manager – prinzipiell denselben Financial Risks ausgesetzt wie verwandte große und mittelgroße Finanzdienstleister.
Regulatorisch betrachtet sind die Auflagen und der daraus resultierende Aufwand relativ gering, allerdings müssen kleine Finanzdienstleister mit einer im Allgemeinen dünnen Personaldecke auskommen und sind dementsprechend auf effiziente und robuste Verfahren angewiesen.

Wesentliche Financial Risks sind – je nach Geschäftsfeld – insbesondere Marktrisiken (aufgrund von Preis-Schwankungen bei Investment- und Funding-Produkten), Kreditrisiken (insb. bei Banken) und operationelle Risiken.
Für das Financial Risk Management wird oftmals spezialisierte Software verwendet, diese ist aber nur als „Blackbox“ verfügbar und kann weder eingesehen noch frei angepasst werden

Corporates & Kommunen

Insbesondere die Treasury-Abteilungen von Corporates, Kommunen oder gemeinnützigen Organisationen müssen beim Funding über den Kapitalmarkt oder bei diesbezüglichen Investitionen Marktrisiken in Kauf nehmen.
Entsprechend groß ist das Interesse sich über Hedges abzusichern. Hier ist man jedoch in der Regel auf das Know How von Banken angewiesen, eine unabhängige Kontrolle von Preisen und Risiken von Derivaten ist nicht immer möglich.
Die Quantifizierung operationeller Risiken ist ein weiterer Themenkreis, für den nicht immer adäquate Methoden vorhanden sind.

FinTechs

FinTechs – etwa im Bereich Crowd Funding, Peer to Peer Lending oder Robo Advisory – bieten effizient Finanzdienstleistungen an und punkten mit disruptiven Geschäftsmodellen.
Andererseits stoßen sie bei möglichen Kunden oft nach wie vor auf Akzeptanzprobleme und sehen sich möglichen künftigen regulatorischen Risiken gegenüber.

Umso wichtiger ist es hier eigenes Know How im Financial Risk aufzubauen und die Risiken für die Kunden zu minimieren bzw. transparenter zu machen:

  • Kreditrisiko: Z.B. beim Peer to Peer Lending
  • Marktrisiko: Z.B. bei Robo Advisory
  • Operationelles Risiko: Bei Payments, etc.

Financial Risk-Kategorien

Die quantifizierbaren Financial Risks lassen sich mehreren Gruppen zuordnen.

Kreditrisiken

Unter Kreditrisiken versteht man Risiken durch Kreditereignisse, wie Zahlungsausfall, Zahlungsverzug, Herabstufung der Kreditwürdigkeit oder Einfrierung der Währung.
Eine weitere Unterscheidung betrifft die Einteilung in Emittenten- (bei Anleihen), Kontrahenten- (bei Derivate-Geschäften) und Kreditausfallrisiken von Kreditnehmern i.e.S.
Die Messung von Kreditrisiken erfolgt insb. über Ratings. Diese erfordern eine hinreichend große historische Referenz-Datenbank, die quantitative (z.B. Verschuldungsgrad, Eigenkapitalquote) und qualitative Kennzahlen (z.B. Qualität des Managements, Zukunftsaussichten) für Unternehmen bekannter Bonität enthält.
Im Falle mehrerer Kredite sind zudem Ausfallkorrelationen und hieraus Diversifikationseffekte (im positiven Fall) oder Klumpenrisiken (im negativen Fall) zu beachten.

Marktrisiken

Marktrisiken resultieren aus der Möglichkeit ungünstiger Änderungen relevanter Marktparameter wie Zinsen, Wechselkurse, Credit Spreads, Aktien- und Anleihekursen, Volatilitäten oder Rohstoffpreisen.
Die Risiken manifestieren sich in Preisänderungen von Wertpapieren und Derivaten.
Marktrisiken betreffen beide Seiten der Bilanz und machen sich auch bei Finanzierungen über Kredite bemerkbar.
Im Unterschied zu den übrigen Risiken können sich bei hohen Marktrisiken auch hohe Chancen ergeben.

Operationelle Risiken

Operationelle Risiken lassen sich je nach Ursache den folgenden Kategorien zuteilen

  • Menschen: z.B. Betrug, mangelnde Kennt-nisse, Mitarbeiter-Fluktuation
  • Prozesse: z.B. Transaktionsfehler, Projekt-risiken, Reportingfehler, Bewertungsfehler
  • Systeme: z.B. Programmierfehler, Abstürze
  • Externe Ereignisse: z.B. Klagen, Diebstahl, Feuer, Überschwemmungen

Angebotene Tools

Im Folgenden werden Financial Risk-Verfahren aus dem Portfolio von RiskDataScience vorgestellt. Die funktionsfähigen Tools sind alle transparent und einsehbar und – bis auf das Kreditrating-Tool – auf VBA- bzw. Python-Basis entwickelt worden.

Kreditrating-Tool

Das Rating-Tool von RiskDataScience basiert im Gegensatz zu den übrigen Risk-Tools auf der freien Mining-Software RapidMiner (Version 5.3). Methodisch ist es an das z-Score-Modell von Altman (Regression von Kennzahlen aus Bilanzdaten) angelehnt.

Methodik

Für die Analyse der Bilanzdaten werden Data Mining-Methoden aus dem Bereich Data Science / Machine Learning genutzt. Die hierfür relevanten Supervised Learning-Algorithmen werden wie folgt eingesetzt

  • Die Algorithmen werden mit bekannten Datensätzen darauf „trainiert“ Datensätzen den jeweiligen Kategorien (insolvent gegangenes – nicht insolvent gegangenes Unternehmen) zuzuordnen
  • Unbekannte Fälle können anschließend bekannten Kategorien mit bestimmten Konfidenzen zugeordnet werden
  • Die Güte der Klassifikation wird mittels spezifischer Kennzahlen und Validierungsverfahren wie der Accuracy (Trefferquote), der Area Under the Curve (AUC; Plot Anteil True Positives über Anteil False Positives) oder Lift-Kurven (Pareto-Plot; Effektivitätstest mittels Vergleich mit Zufallsauswahl) überprüft

Vorbereitung

Aus den veröffentlichten Bilanzen und GuVs aus dem jeweiligen Jahr vor der Insolvenz müssen für das Trainings-Sample gemäß z-Score-Modell Kennzahlen wie

  • Eigenkapital / Assets
  • Gewinnrücklagen / Assets
  • EBIT / Assets
  • Eigenkapital / Schulden
  • Umsatzerlöse / Assets

ermittelt werden. Die gleichen Kennzahlen sind zudem für ein Referenz-Set nicht insolvent gegangener Unternehmen zu bilden.

Generell muss hier angemerkt werden, dass die Qualität des Rating-Verfahrens mit der Anzahl und Güte der ermittelten Daten ansteigt.

Klassifikation

Nach Ermittlung der Portfoliostruktur erfolgt ein Supervised Learning mittels Trainings-Sample (Unternehmen mit bekannter Zuordnung).
In Betracht kommt hier insb. der Algorithmus W-Logistic (modifizierte logistische Regression), aber auch Verfahren wie Rule Induction (Ermittlung von Regeln) und Random Forest (Set von zufälligen Entscheidungsbäumen).
Anschließend können die trainierten Algorithmen auf zu ratende Unternehmen zur sofortigen Klassifikation angewendet werden.

Anwendungsbeispiel

Anhand der Bilanzkennzahlen von über 50 insolvent gegangenen Unternehmen (aus dem Jahr vor der Insolvenz) sowie entsprechender nicht-insolventer Referenz-Unternehmen wurden die Kennzahlen gemäß z-Score-Modell berechnet.
Die Analyse wurde mittels des RapidMiner-Tools durchgeführt und ergab Trefferquoten von über 70%.
Auch die Area Under the Curve und die Lift-Kurven deuten auf eine hohe Rating-Güte hin (s. u.).

AUC In-Sample-Test
Lift-Kurve In-Sample-Test

Kreditrisiko-Tools

RiskDataScience bietet Routinen auf VBA-Basis zu folgenden Themen an

  • Kreditausfälle: Anhand eines vorgegebenen Ratings und einer Migrationsmatrix werden Ausfallwahrscheinlichkeiten über einen mehrjährigen Zeitraum berechnet. Zudem erfolgt u.a. die Berechnung der marginalen und kumulativen Ausfallwahrscheinlichkeit sowie der Überlebensrate.
  • Marktmethoden
    • Berechnung der impliziten Ausfallwahrscheinlichkeit aus risikolosem und tatsächlichem Zins
    • Berechnung der Ausfallwahrscheinlichkeit nach dem Merton-Modell
    • Berechnung der „gestressten“ Ausfallwahrscheinlichkeit unter Berücksichtigung von Marktkorrelationen (Basel II-Formel)
  • Ausfall-Anteil
    • Ermittlung von Fit-Kurven anhand (bilanzieller) Kennzahlen und externer Ratings als mögliche Berechnungsgrundlage für interne Ratings
    • Berechnung von Kennzahlen wie α, β und
    • Fit durch lineare oder logistische Interpolation
  • Backtesting: Gegenüberstellung von Ausfallwahrscheinlichkeiten und tatsächlichen Ausfällen zur Modell-Validierung sowie Ermittlung des Gini-Koeffizienten als Maß für die Trennschärfe des zu validierenden Rating-Verfahrens
  • Portfolio-VaR: Ermittlung des gesamten Value at Risks für ein Portfolio mit bekannten Teil-Value at Risks und bekannter Korrelationsmatrix.
    Das Verfahren ist generisch und kann auch für andere Risikoarten verwendet werden.

Marktrisiko-Tools

RiskDataScience bietet Routinen auf VBA-Basis zu folgenden Themen an

  • PV aus Cashflows
    • Berechnung des Barwerts (Present Value, PV) aus vorgegebenen Cashflow-Zeitreihen
    • Berücksichtigung unterschiedlicher Tageszählkonventionen (act/act, 30/360,…) und Diskontierungsmethoden
    • Berechnung von Clean und Dirty PV, Duration und Konvexität
  • VaR
    • Ermittlung des Value at Risks für eine vorgegebene Zahlenmenge und vorgeg. Konfidenzniveau
    • Ermittlung weiterer Kennzahlen wie Standardabweichung, Expected Shortfall und erwartete Anzahl an Ausreißern
  • Optionen
    • Preisermittlung für Call- und Put-Optionen anhand der Black-Scholes-Formel
    • Ermittlung der Sensitivitäten Delta, Gamma, Rho, Theta und des Value at Risk (VaR) auf Black-Scholes-Basis
    • Des weiteren Preisermittlung nach dem Garman-Kohlhagen-Modell
  • Stückzins
    • Berechnung des Barwerts (Present Value, PV) aus vorgegebenen Cashflow-Zeitreihen
    • Berücksichtigung unterschiedlicher Tageszählkonventionen (act/act, 30/360,…)
    • Berechnung von Clean und Dirty PV sowie des Stückzinses (Accrued Interest)
  • Zinskurven
    • Umfassendes Tool zur Berechnung von Barwert, Zinssensitivitäten (Basis Point Value, BPV) sowie des VaR auf Varianz-Kovarianz-Basis aus Cashflow-Zeitreihen, Zinskurven und der Zins-Korrelationsmatrix
    • Außerdem Ermittlung des Par Yield-Zinses und der Forward-Zinskurve
  • Zins-Derivate: Ermittlung von Barwerten unter Berücksichtigung von Zinskurven Zinskurven für die Zins-Derivate Swaps, Forward Rate Agreements (FRAs), Futures, Caps und Floors

OpRisk-Tool

Das RiskDataScience OpRisk-Tool berechnet den VaR für den Fall unkorrelierter operationeller Risiken mit bekanntem Schadensausmaß und bekannter Häufigkeit.

Angebotsstufen für eine Nutzung der Financial Risk-Tools

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und unternehmensspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Methodik der jeweils relevanten Tools
  • Übergabe und Installation der vor-handenen Lösung auf VBA-Basis (OpenOffice) inkl. Dokumentation – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Installation der vorhandenen RapidMiner-Lösung für Kredit-Ratings – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
    Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln.

 

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Eruierung der für den Kunden relevanten Risiken und Auswahl sowie ggf. Anpassung der entsprechenden Tools
  • Anfertigung einer methodischen Beschreibung mit dem gewünschten Detaillierungsgrad
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholder
    Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse von Financial Risks.

 

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter und Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung sowie fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung
    Kunde verfügt über automatisierte IT-Lösung für Financial Risk-Berechnungen.

 

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Machine Learning-basierte Newsticker-Priorisierung

Übersicht Problemstellung und Angebot

In den Handelsabteilungen von Finanzinstituten müssen oft weitreichende Entscheidungen in sehr kurzer Zeit getroffen werden. Aufgrund der enormen Anzahl verschiedener Wertpapiere, Derivate, Marktdaten und Nachrichten ist das Priorisieren und Einstufen der Informationen komplex und zeitaufwendig.

Machine Learning-Verfahren ermöglichen das automatische selektieren und priorisieren auch unstrukturierter Informationen wie Textnachrichten RiskDataScience verfügt über bereits entwickelte Algorithmen zur automatischen Klassifizierung von Nachrichten-Texten hinsichtlich Kurs-Relevanz.

Händler können aus einer Vielzahl unterschiedlicher Nachrichten zeitnah die wichtigen herausfiltern. Damit wird sowohl die Informationsbasis vergrößert als auch wertvolle Zeit eingespart.

Handelsrelevante Nachrichten

Allgemeines

In den Handelsabteilungen von Banken und Asset Managern werden weitreichende Entscheidungen bzgl. des Erwerbs oder Verkaufs von Assets und Derivaten getroffen.
Insbesondere im Wertpapierbereich ist es dabei aufgrund permanenter Marktschwankungen essentiell Entscheidungen zügig zu treffen.
Andererseits weisen die Finanzmärkte eine hohe Komplexität und ein hohes Risiko auf. Dies erfordert eine valide Berücksichtigung verschiedenster Informationen unter strategischen, Bewertungs- und Risiko-Aspekten.

Die gängigste Informationsquelle sind Marktdaten wie Aktien-, FX-, CS-Kurse, Zinsen und Rohstoffpreise. Daneben liegen unstrukturierte Daten zumeist in Form von Textnachrichten vor, die (im Ggs. zu den Marktdaten) für gewöhnlich noch keine Einschätzung des Marktes widerspiegeln.
Insbesondere in illiquiden Märkten sind Nachrichten oft viel aussagekräftiger und aktueller als Marktdaten. Nachrichten von Reuters oder Bloomberg liegen hierbei in standardisierter und einfach zu analysierender Form vor.

Effiziente Priorisierung und Einstufung

Für eine zeitnahe und angemessene Berücksichtigung der relevanten Informationen müssen Händler

  • Informationsquellen ermitteln, die für die jeweiligen Daten relevant sind.
  • Die tatsächlich wichtigen Informationen herausfiltern.
  • Die Informationen beurteilen und darauf aufbauend Entscheidungen treffen.

Insbesondere das manuelle Herausfiltern von Textnachrichten erweist sich hierbei als sehr zeitaufwendig, fehleranfällig und subjektiv.

Eine automatisierte Priorisierung von Nachrichten gemäß ihrer Wichtigkeit führt hingegen zu einer großen Zeitersparnis. Wichtige Nachrichten können damit in einer vorgegebenen Zeit effektiver und objektiver erkannt werden und Händler können sich auf Handelsstrategien fokussieren und werden zudem mit geeigneteren Informationen versorgt.

Priorisierung mittels Machine Learning-Verfahren

Methoden und Tools

Für die Nachrichten-Analyse kommen verschiedene Text Mining-Methoden aus dem Bereich Data Science / Machine Learning in Betracht. Die hierfür relevanten Supervised Learning-Algorithmen werden wie folgt eingesetzt:

  • Die Algorithmen werden mit bekannten Datensätzen darauf „trainiert“ Texte den jeweiligen Kategorien (z.B. wichtige Nachricht – unwichtige Nachricht) zuzuordnen.
  • „Unbekannte“ Texte können bekannten Kategorien mit bestimmten Konfidenzen zugeordnet werden.
  • Die Güte der Klassifikation wird mittels spezifischer Kennzahlen und Validierungsverfahren wie der Accuracy (Trefferquote), der Area Under the Curve (AUC; Plot Anteil True Positives über Anteil False Positives) oder Lift-Kurven (Pareto-Plot; Effektivitätstest mittels Vergleich mit Zufallsauswahl) überprüft.

Die Analysen erfordern Programme auf der Basis entsprechender Analysetools, wie z.B. R oder RapidMiner.

Analyse-Vorbereitung

Zunächst muss die Kategorisierung der Trainings-Nachrichten gemäß ihrer Wichtigkeit wie folgt durchgeführt werden:

  • Die Unternehmens-Nachrichten werden den jeweiligen Marktwertänderungen (z.B. Aktien-Returns) zugeordnet
  • Die Nachrichten werden anhand dieser Änderungen nach fachlichen Kriterien den Kategorien zugeordnet (z.B. bei Schwankungen größer σ der Kategorie „wichtig“).

Zudem müssen Stopword-Listen, d.h. Listen auszuschliessender missverständlicher oder zu häufig auftretender Begriffe, gebildet werden.

Analyse-Durchführung

Hierbei werden aus den gemäß Stopword-Listen bereinigten Texten Wortstämme gebildet.
Aus den Texten werden anschließend nach informationstheoretischen Kriterien die signifikanten Wörter und Wortkombinationen extrahiert (n-grams).
Die Texte werden dann als Punkte in einem hochdimensionalen Raum mit den n-grams als Dimensionen dargestellt (Term Document Matrix, TDM).
Per Supervised Learning-Algorithmen werden im Anschluss Kriterien zur Trennung der Punktwolken ermittelt.
Die Ergebnisse sind noch mit spezialisierten Verfahren zu validieren.

Angebotsstufen für eine Priorisierung von Handels-Nachrichten mittels Machine Learning-Verfahren

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und institutsspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Klassifikationsmethodik von Nachrichtentexten
  • Übergabe und Installation der vorhandenen Lösung zur Tagcloud-Generierung
  • Übergabe und Installation der vorhandenen RapidMiner-Lösung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken

Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln.

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Anpassung und ggf. Neuerstellung von Referenzgruppen gemäß Portfolien des Kunden
  • Entwicklung geeigneter Kennzahlen (wie z.B. Volatilitätsmaßen) für die Kategorisierung gemäß Portfolien und Handelsstrategie des Kunden
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholder

Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse von Nachrichtentexten.

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte, ggf. webbasierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter und Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung sowie fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung

Kunde verfügt über automatisierte IT-Lösung zur Priorisierung von Nachrichten in Echtzeit.

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Machine Learning-basiertes Kreditrating-Frühwarnsystem

(For the English version click here)

Übersicht Problemstellung und Angebot

Als wichtige Risikoart werden Kreditrisiken mit anspruchsvollen Rating-Verfahren quantifiziert. Aufgrund der aufwendigen Erstellung und fehlender aktueller Bilanzdaten liegen Ratings jedoch nur zeitverzögert vor. Für aktuelle Kreditrisikosignale wurden von Banken daher bereits marktdaten-basierte Frühwarnsysteme eingeführt, die aber keine Indikationen im Falle fehlender Marktdaten liefern können.
Andererseits liefern im Internet vorhandene Unternehmensnachrichten oft wichtige Informationen über Probleme und Schieflagen (siehe auch Nachrichtenbasierte Frühwarnsysteme).
RiskDataScience verfügt über bereits entwickelte Algorithmen zur automatischen Ermittlung und Klassifizierung von Nachrichten-Texten hinsichtlich Insolvenz-Relevanz (News-Based Early Warning).
Damit können Banken aus Nachrichtentexten wertvolle Zusatz-Informationen über drohende Insolvenzen gewinnen. Eine Früherkennung von Kreditrisiken ist damit auch für nichtgelistete Unternehmen ohne direkte Marktdaten möglich.

Kreditrisiko-Messung

Allgemeines

Unter Kreditrisiken versteht man Risiken durch Kreditereignisse, wie Zahlungsausfall, Zahlungsverzug, Herabstufung der Kreditwürdigkeit oder Einfrierung der Währung.
Eine weitere Unterscheidung betrifft die Einteilung in Emittenten- (bei Anleihen), Kontrahenten- (bei Derivate-Geschäften) und – die im Folgenden betrachteten – Kreditausfallrisiken von Kreditnehmern i.e.S.
Kreditrisiken bilden oft das größte Bank-Risiko und müssen – neben Markt- und operationellen Risiken – gemäß Basel II/III mit Eigenkapital unterlegt werden.

Eine häufig herangezogene Kennzahl zur Quantifizierung  von Kreditrisiken ist der erwartete Verlust (Expected Loss) eines Kredits. Dieser ergibt sich im einfachsten Fall als Produkt aus

  • PD: Probability of Default, Ausfall-Wahrscheinlichkeit
  • LGD: Loss Given Default, eins minus Wiederverwertungsrate
  • EaD: Exposure at Default, ausstehendes Kreditvolumen

Externe und interne Kreditratings messen hauptsächlich die PD (und z.T. den LGD) und werden mit aufwendigen Verfahren ermittelt.

Ermittlung und Früherkennung

Die Verfahren zur Ermittlung der PD erfordern fundierte statistische Analysen auf Basis von

  • quantitativen Bilanzkennzahlen wie Verschuldungsgrad, Eigenkapitalquote und EBIT
  • qualitativen Analysten-Kennzahlen wie Qualität des Managements, Zukunftsaussichten und Marktstellung
  • allgemeinen Marktdaten wie Zinsen, Inflation und Wechselkursen.

Die Ratingmodelle müssen regelmäßig anhand tatsächlicher Kreditereignisse validiert und gegebenenfalls angepasst werden.
Kreditratings liegen deshalb meist verzögert – oftmals nur jährlich – vor.
Zur Behebung dieses Problems wurden marktdatenbasierte Frühwarnsysteme eingeführt, die Signale auf der Basis signifikanter Änderungen von Aktienkursen, Credit Spreads oder weiterer mit dem Rating korrelierter Marktdaten liefern. Im Allgemeinen können damit allerdings nur systematische bzw. Risiken gelisteter Unternehmen erkannt werden.

Informationen aus Nachrichten

Allgemeines

Die Gründe für Insolvenzen sind oft unternehmensspezifisch (idiosynkratisch) und können nicht aus allgemeinen Marktentwicklungen abgeleitet werden. Beispiele hierfür sind

  • Betrugsfälle durch das Management
  • Insolvenz eines wichtigen Kunden bzw. Lieferanten
  • Auftreten eines neuen Konkurrenten

Negative Ereignisse wie Werkschließungen, Kurzarbeit, Ermittlungen und Anklagen gehen dabei der eigentlichen Insolvenz zum Teil um mehrere Monate voraus.

Im Falle nichtgelisteter Unternehmen ist dennoch keine marktdatenbasierte Frühwarnung möglich. Hingegen liefern Nachrichten auch in diesen Fällen aktuelle und oftmals insolvenzrelevante Informationen.
Nachrichtenportale, Blogs, Soziale Medien und insbesondere Lokalzeitungen informieren dabei online über Probleme von Unternehmen.
Durch die effiziente Nutzung von Texten ist somit eine Erweiterung der Frühwarnung auf nichtgelistete Unternehmen möglich.

Effiziente Nachrichten-Analyse

Verfahren zur effizienten Analyse von Texten sind Voraussetzung um die relevanten Nachrichten zu identifizieren und darauf aufbauend mögliche Insolvenzen zu antizipieren. Hierfür notwendig sind

  • eine rechtzeitige Identifizierung relevanter Datenquellen (Zeitungen, RSS-Feeds, etc.)
  • ein Einlesen der relevanten Nachrichten zu allen Kunden anhand vorgegebener Muss- und Ausschlusskriterien
  • eine zeitnahe Klassifikation der relevanten Texte anhand möglicher Insolvenzrisiken
  • eine sofortige Analyse und Visualisierung der Ergebnisse zur Erkennung von Risiken

Bereits realisierte Machine Learning-Algorithmen dienen als Basis für diese zunächst unmöglich erscheinende Aufgabe.

Wissensnutzung durch Machine Learning-Verfahren

Einlesen

Im ersten Schritt müssen alle relevanten Nachrichtenquellen anhand einer hinreichend großen Stichprobe zu untersuchender Unternehmen identifiziert und irrelevante Quellen möglichst ausgeschlossen werden.
Die Gewinnung der relevanten Texte aus diesen Quellen kann z.B. über folgende Verfahren erfolgen

  • Bezug von Pressetexten über entsprechende Dienstleister
  • direktes Abgreifen freier RSS-Feeds

Die Nachrichten sind dabei nach Relevanz zu filtern. Zur Vermeidung von Verwechslungen aufgrund des Namens oder irrtümlicher Textbausteine (z.B. bzgl. Aktien) sind Wortfilter und ggf. komplexe Textanalysen notwendig.

Klassifikation

Für die Klassifizierung der gewonnenen Nachrichtentexte kommen verschiedene Text Mining-Methoden aus dem Bereich Data Science / Machine Learning in Betracht. Beim Supervised Learning wird dabei wie folgt vorgegangen

  • zunächst werden manuell die Wörter ermittelt, die für die Klassifikation irrelevant sind („Stopwords“)
  • die Algorithmen werden dann mit bekannten Datensätzen darauf „trainiert“ Texte Kategorien zuzuordnen
  • neue Texte können anschließend bekannten Kategorien mit bestimmten Konfidenzen zugeordnet werden

Methodisch sind dabei folgende Schritte durchzuführen

  • aus den gefilterten Texten werden signifikante Wortstämme/Wortstamm-Kombinationen („n-grams“) ermittelt
  • die Texte werden als Punkte in einem hochdimensionalen Raum (mit den n-grams als Dimensionen) abgebildet
  • Machine Learning-Verfahren ermitteln Gesetzmäßigkeiten zur Trennung der Punkte nach Kategorien. Hierfür bieten sich dezidierte Algorithmen wie naive Bayes, W-Logistic oder Support Vector Machine an.

Die Analysen erfordern Programme auf der Basis entsprechender Analysetools, wie z.B. R oder RapidMiner.

Anwendungsbeispiel

Für ca. 50 insolvent gegangene Unternehmen und 50 nicht-insolvente Referenzunternehmen wurden Nachrichten-Snippets für einen mehrmonatigen Zeithorizont (3M–3W) vor der jeweiligen Insolvenz gesammelt.
Die dargestellten Tagclouds geben einen exemplarischen Überblick über den Inhalt der Texte.
Mit einem RapidMiner-Prototypen wurden die Nachrichtentexte hinsichtlich möglicher Insolvenzen klassifiziert und die Resultate mit In- und Out-Of-Sample-Tests untersucht.

Tagcloud Nachrichten insolvent gegangene Unternehmen
Tagcloud Nachrichten nicht insolvent gegangene Unternehmen

Bereits anhand der Tagclouds ist somit ein deutlicher Unterschied zwischen den Nachrichten zu insolvent gegangenen  und nicht insolvent gegangenen Unternehmen erkennbar.

Die RapidMiner-Lösung wurde mit einem Trainingssample (70% der Texte) trainiert und auf einem Test-sample (30% der Texte) angewendet.
Sowohl für das Trainingssample (In-Sample) als auch für das Testsample ergaben sich dabei Trefferquoten (Accuracy) von ca. 80%. Die Area Under the Curve (AUC) lag zudem im In-Sample-Fall bei 90%.
Anhand der RapidMiner-Konfidenzen und den tatsächlichen Insolvenzen konnte zudem eine PD-Kalibrierung durchgeführt werden.

Selbst mit dem relativ kleinen Trainingssample konnte damit eine signifikante Früherkennung von Insolvenzen erreicht werden. Weitere Verbesserungen sind mit einer Erweiterung der Trainingsdaten zu erwarten.

Kosteneffiziente Umsetzung

Ausgangslage

Da sich noch kein einheitlicher Markt für Internet-Nachrichten-Lieferungen gebildet hat, sind die Preise oft uneinheitlich. Unterschiedliche Anforderungen an die Bereinigungsroutinen und unterschiedliche technische Ansätze führen zu großen Preisspannen.
Hingegen sind qualitativ hochwertige Analyse-Tools wie  R oder RapidMiner (Version 5.3) z.T. sogar frei erhältlich.
Zudem bietet ca. die Hälfte aller Online-Zeitungen ihre Schlagzeilen in Form standardisierter RSS-Feeds an.

Kostentreiber

Die Umsetzungs- sowie die laufenden Kosten von nachrichtenbasierten Frühwarnsystemen können sich insbesondere aus den folgenden Gründen z.T. deutlich erhöhen:

  • Eine Auswertung vollständiger Nachrichtentexte erfordert aus Urheberrechtsgründen Gebühren an Verwertungsgesellschaften (VG Wort) bzw. einen direkten Kauf.
  • Ein Crawling ist technisch aufwendig.
  • Die Pflege fortschrittlicher NLP-Algorithmen (Natural Language Processing) zur Identifizierung relevanter Texte ist kostenintensiv.

Es ist daher zu prüfen, inwiefern die genannten Punkte – zumindest für eine Basis-Umsetzung – tatsächlich notwendig sind.

Kosteneffiziente Basis-Lösung

Der bereits entwickelten kosteneffizienten RiskDataScience Basis-Lösung liegen folgende Annahmen zugrunde

  • in den Überschriften sowie kurzen Textausschnitten (“Snippets“) enthaltene Informationen sind für Insolvenzwarnungen ausreichend
  • es liegen genügend freie RSS-Feeds vor, die eine hinreichend gute Übersicht über die Lage (mittelständischer) Unternehmen bieten
  • die Relevanz der Nachrichten-Snippets kann anhand einfacher Text-Suchen ermittelt werden

Die realisierte Lösung basiert auf folgenden – im Batch-Modus lauffähigen – Komponenten

  • Datenbank, die hunderte RSS-Links zu Wirtschafts- und Regional-Nachrichten enthält und ca. 50% der deutsch-sprachigen Online-Zeitungen abdeckt
  • Lösung auf RapidMiner-Basis zum Einlesen beliebig vieler RSS-Feeds in ein Excel-Format
  • VBA-Routinen zum Herausfiltern relevanter Snippets mittels Texterkennung

Damit können jederzeit innerhalb weniger Minuten hunderte Nachrichtenquellen durchsucht und Insolvenzsignale zu potentiell tausenden Unternehmen identifiziert werden.

Urheberrechtliche Fragestellungen

Bei einer Realisierung nachrichtenbasierter Frühwarnsysteme müssen zwingend die rechtlichen Vorgaben beachtet werden, die sich insbesondere aus dem Urheberrecht (UrhG) ergeben.

Dieses setzt der Vervielfältigung und Bearbeitung von Nachrichten-Texten enge Grenzen.
Insbesondere im Falle von Datenbanken sowie Weiter-Veröffentlichungen können Probleme auftreten.

Demgegenüber stehen zahlreiche Ausnahmen, insbesondere in Bezug auf vorübergehende Vervielfältigungshandlungen sowie Zeitungsartikel und Rundfunkkommentare.

Obwohl die Verarbeitung von Nachrichten-Snippets i.A. unbedenklich sein sollte, wird aufgrund der hohen Komplexität des UrhG zur Absicherung anwaltlicher Rat empfohlen.

Angebotsstufen für einen Einsatz von Machine Learning-Verfahren zur Kreditrisiko-Füherkennung

RiskDataScience ermöglicht Banken die beschriebenen Verfahren effizient und institutsspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Text-Klassifikationsmethodik
  • Übergabe und Installation der vorhandenen Lösung zur Tagcloud-Generierung
  • Übergabe und Installation der vorhandenen RapidMiner-Lösung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken
    Bank ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Anpassung und ggf. Neuerstellung von Referenzgruppen gemäß Portfolien der jeweiligen Bank
  • Durchführung von Analysen und Methodenoptimierung anhand der Portfolien und Kundenhistorie der Bank
  • Anpassung der RSS-Quellen
    Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholder
    Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse von Nachrichtentexten

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte, ggf. webbasierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter
  • Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung
  • Fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung
    Bank verfügt über automatisierte IT-Lösung zur nachrichtenbasierten Früherkennung von Insolvenzsignalen.

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Machine Learning-basierte Einstufung und Klassifikation regulatorischer Anforderungen

Übersicht Problemstellung und Angebot

Die im Zuge der Finanzkrise ab 2007 beschlossenen Regularien stellen Banken vor kaum zu bewältigende Herausforderungen. Gleichzeitig stehen den Banken beträchtliche Wissensressourcen zur Verfügung, die für die Bewältigung der Aufgaben genutzt werden können, aufgrund ihres Umfangs und ihrer Komplexität jedoch sehr aufwendige Analysen erfordern. Machine Learning-Verfahren ermöglichen die Nutzung der vorhandenen Wissensressourcen mit einer bisher nicht dagewesenen Effizienz und Effektivität.
RiskDataScience verfügt diesbezüglich über bereits entwickelte Kategorien und Algorithmen zur Klassifizierung und Gruppierung von Texten mit regulatorischem Bezug. Der regulatorische Einsatz von Machine Learning-Verfahren kann hierbei flexibel ausgestaltet werden.
Damit können Zusammenhänge zwischen den Regularien erkannt, Stakeholder, Verfahren und Projektabhängigkeiten frühzeitig identifiziert und Probleme antizipiert und vermieden werden. Banken können zudem Projektkosten senken und Planungen optimieren. Außerdem wird eine zeitnahe Einstufung der Auswirkungen erleichtert.

Regulatorische Herausforderungen

Regularien wie IFRS 9, BCBS 239, FTRB, IRRBB oder die MaRisk-Novelle 2016 erfordern grundlegende Änderungen in den Methoden, Prozessen und/oder Systemen der Banken. Viele Regularien haben zudem weitreichende Auswirkungen auf die Risiken, das Eigenkapital und damit das Geschäftsmodell der betroffenen Banken. Die große Anzahl der finalen bzw. in Konsultation befindlichen Regularien gestaltet ein angemessenes Monitoring der Anforderungen und Auswirkungen schwierig.

Weitere Komplikationen ergeben sich aus der Interaktion der Anforderungen. Die Regularien können verschiedene, miteinander zusammenhängende, Bereiche der Banken, wie Risk, Handel, Finance oder die IT betreffen. Bereits laufende Projekte (inklusive der Projektziele) können ebenfalls von Regularien betroffen sein und müssen ggf. angepasst werden. Bei regulatorischen Umsetzungsprojekten kann es daher zu zeitlichen und inhaltlichen Abhängigkeiten sowie Zielkonflikten zwischen den Projekten kommen.

Dementsprechend finden in den Banken unzählige Vorstudien und Umsetzungsprojekte statt. Zahlreiche Beratungsunternehmen führen hierbei Projekte durch, die sich oft durch lange Laufzeiten und einen hohen Ressourcenbedarf auszeichnen. Die Projekte binden außerdem interne Ressourcen und verschärfen bereits vorhandene Personalengpässe.
Generell ist die externe Unterstützung kostspielig und erhöht den Koordinationsaufwand, insbesondere bei mehreren Dienstleistern. Fehler in Vorstudien und Projekt-Anfangsphasen lassen sich zudem nur schwer korrigieren. Aufgrund der hohen Projekt-Komplexität besteht schließlich das Risiko, dass Auswirkungen und Interdependenzen nicht rechtzeitig erkannt werden.

Wissensressourcen zur Aufgabenbewältigung

Als externe Ressourcen stehen den Banken zunächst Originaltexte der Regularien sowie der Konsultationen zur Verfügung, die für gewöhnlich frei erhältlich sind. Zahlreiche einschlägige Online-Portale veröffentlichen regelmäßig Artikel über Inhalt und Auswirkungen der regulatorischen Anforderungen. Verschiedene Beratungsunternehmen, insbesondere die Big 4, stellen den Banken außerdem freie Artikel, Whitepapers und Newsletters zur Verfügung. Somit kann dann Internet in gewissem Umfang bereits als Medium für Vorab-Analysen aufgefasst werden.

Intern haben die Banken bereits umfangreiche Erfahrungen durch bereits abgeschlossene oder aktuell laufende Projekte gesammelt, wie Projektdokumentationen oder Lessons Learned. Banken verfügen zusätzlich über umfangreiche Dokumentationen der eingesetzten Methoden, Prozesse und Systeme sowie der Zuständigkeiten und organisatorischen Gegebenheiten. Interne Blogs, etc. bündeln darüber hinaus die Expertise der Mitarbeiter. Teil-Analysen sind damit bereits in beträchtlichem Umfang vorhanden.

Wissensnutzung durch Machine Learning-Verfahren

Methoden und Tools

Für die Analyse der regulatorischen sowie der sich hierauf beziehenden Texte kommen verschiedene Text Mining-Methoden aus dem Bereich Data Science / Machine Learning in Betracht, die sich in folgende Kategorien einteilen lassen.

  • Supervised Learning: Die Algorithmen werden mit bekannten Datensätzen darauf „trainiert“ Texte den jeweiligen Regularien zuzuordnen. „Unbekannte“ Texte können anschließend bekannten Regularien mit bestimmten Konfidenzen zugeordnet werden. Diese Verfahren eignen sich insbesondere zur Zuordnung neuer Texte zu bereits bekannten Regularien sowie zur Identifizierung von Ähnlichkeits-Kriterien (Stopword-Listen, s.u.).
  • Unsupervised Learning: Hierbei werden „natürliche“ Cluster gebildet, die Regularien können unmittelbar gemäß Ähnlichkeitskriterien gruppiert werden. Neue Regularien können damit mit bereits bekannten verglichen werden.

Die Analysen erfordern Programme auf der Basis entsprechender Analysetools, wie z.B. R oder RapidMiner.

Mining-Vorbereitung

Der erste Schritt ist die Bildung von Ähnlichkeits-Kategorien anhand derer Ähnlichkeiten und Zusammenhänge festgestellt werden sollen. Mögliche Kategorien sind z.B. Risikobezug, Auswirkung auf Kapital, Organisations-Aspekte oder Zielgruppen. Die Bildung der Kategorien sowie der entsprechenden Wortlisten erfordert fundierte fachliche Expertise

Auf Basis der Kategorien sind Wortlisten (bzw. Stopword-Listen, d.h. Ausschlusslisten) zu bilden, anhand derer die Analysen durchgeführt werden sollen. Die eingelesenen und vorverarbeiteten Texte müssen gemäß der zu untersuchenden gefiltert werden.

Mining-Durchführung

Basis für die Mining-Durchführung sind die aus den gefilterten Texten gebildeten Term Document Matrices.
Nach Anpassung der Stopwortlisten können „neue“ Regularien mit bereits bekannten „Backbone-Regularien“ verglichen werden. Die Resultate können dazu verwendet werden die Stopwortlisten weiter zu optimieren und z.B. in Form von Spinnendiagrammen dargestellt werden.
Mit den optimierten Stopwortlisten können anschließend Gruppierungen vorgenommen und in Form von Baumdiagrammen dargestellt werden.

Vorteile einer automatisierten Untersuchung

Kostensenkung

Regulatorische Umsetzungsprojekte sind für Banken einer der größten Kostentreiber. Mit einem Bedarf an mehreren hundert Mitarbeitern können die Kosten im dreistelligen Millionenbereich liegen. Dementsprechend sind die Vorstudien hierzu von großer Bedeutung. Diese beinhalten u.a. die Dokumentklassifikation, Stakeholderermittlung, Relevanzeinstufung, Gap-Analyse und Planung der Umsetzung. Vorstudien sind ihrerseits kostspielig und wirken sich darüber hinaus über die Planung auf die Kosten der Umsetzungsprojekte aus.
Die Kosten automatisierter Analysen sind vergleichsweise marginal. Dennoch können mehrere Aufgaben von Vorstudien, wie die Dokumentklassifikation, die Stakeholderermittlung oder Relevanzeinstufung mit übernommen und optimiert werden.
Damit sinken die Kosten von Vorstudien aufgrund des geringeren Personalbedarfs. Frei werdende Mittel können  effektiver eingesetzt werden, indem z.B. weniger und dafür erfahrene Berater engagiert werden.
Zudem kann die Planung der Umsetzung hinsichtlich möglicherweise irrelevanter Punkte kontrolliert werden.

Fehlerreduktion

Automatische Analysen stellen eine effiziente Zusatzkontrolle dar, die dazu beiträgt Projektrisiken – etwa durch Planungsfehler – zu minimieren.
Nichttriviale – und möglicherweise übersehene – Interdependenzen zwischen Programmen und Projekten können identifiziert und in der Planung berücksichtigt werden.
Ergebnisse von Vorstudien und Aussagen externer Dienstleister können damit eigenständig überprüft werden.

Antizipation

Banken werden mit ständig neuen Konsultationspapieren konfrontiert, zu denen sie Stellung beziehen müssen. Eine rechtzeitige Analyse aller Aspekte ist kostspielig und fehleranfällig.
Automatische Analysen können hingegen per definitionem sehr schnell und standardisiert durchgeführt werden. Damit können Auswirkungen auf das Geschäftsmodell rechtzeitig antizipiert und in die Stellungnahmen einbezogen werden.

Anwendungsbeispiel: Analyse der neuen MaRisk-Novelle 2016

Das im Folgenden beschriebene Anwendungsbeispiel basiert auf einem bereits entwickelten Prototypen (MVP) und extern verfügbaren Daten. Obwohl auch damit bereits die unten skizzierten Einsichten gewonnen werden können, wird der volle Nutzen erst mit der Analyse zusätzlicher bankinterner Texte erreicht.

Allgemeines

Mit einem RapidMiner-Prototypen wurden Ähnlichkeiten zwischen der MaRisk-Novelle 2016 sowie BCBS 239, FRTB, IRRBB, Prudent Valuation und SA-CCR untersucht.
Die Analysen wurden für die von RiskDataScience entwickelten Ähnlichkeitskategorien „Data“ (Datenbezug), „Function“ (Bank-Einheiten), Impact (Auswirkungen auf Projekte und Eigenkapital), Overall (allgemein), Regul (Regulatoren und Zielgruppen) und Risk (Risikoarten und Methoden) durchgeführt.
Die dargestellten Tagclouds geben einen exemplarischen Überblick über den Inhalt einiger Textkorpi.

Tagcloud Textkorpus FRTB

 

Tagcloud Textkorpus MaRisk-Novelle 2016

 

Tagcloud Textkorpus BCBS 239

Bereits anhand der Tagclouds ist somit eine starke Ähnlichkeit zwischen der MaRisk-Novelle 2016 und BCBS 239 (im Gegensatz zu FRTB) ersichtlich.

Textklassifikation

Die RapidMiner-Lösung wurde mit Textkorpi zu den Regularien BCBS 239, Prudent Valuation, IFRS 9, FRTB, IRRBB und SA-CCR trainiert.
Die Texte zur MaRisk-Novelle 2016 wurden als „unbekannt“ angenommen und vom trainierten Algorithmus den jeweiligen „bekannten“ Regularien zugeordnet. Die Visualisierung erfolgte mittels Spinnendiagrammen.

Wie erwartet gibt es in allen Bereichen eine starke Ähnlichkeit zwischen der MaRisk-Novelle 2016 und BCBS 239.

Textclustering

Im Rahmen der Validierung der Textklassifikation wurden die Wortlisten für die Ähnlichkeitskategorien soweit optimiert, bis sie für ein Clustering verwendet werden konnten.
Beim Clustering konnten alle betrachteten Regularien zugleich nach Ähnlichkeiten bzgl. der jeweiligen Kategorie gruppiert werden.
Durch Variation der Cluster-Größe im entsprechenden RapidMiner-Algorithmus wurde eine hierarchische Struktur aufgebaut und als Baumdiagramm visualisiert.

Auch hier gibt es starke Ähnlichkeiten zwischen der MaRisk-Novelle 2016 und BCBS 239.  Weitere starke Ähnlichkeiten existieren zwischen FRTB und IRRBB; IFRS 9 nimmt dagegen oft eine Sonderrolle ein.

Self-Organizing Maps (SOM)

Eine weitere Analyse- und Visualisierungsmöglichkeit ergibt sich mittels Self-Organizing Maps. Hierbei werden die Texte gemäß definierter Kategorien in eine aus Sechsecken bestehende Struktur so, eingeordnet, dass ähnliche Texte benachbart sind. Aufgrund der Vielzahl verschiedener Texte und der Komplexität des Problems nehmen Regularien dabei prinzipiell mehrere Felder ein. Die Farbgebung verdeutlicht zudem die „Einzigartigkeit“ verschiedener Texte.

Kategorie “Overall”

 

Kategorie “Functions”

 

Kategorie “Impact”

Wie erwartet stellt die allgemeine Sicht die MaRisk-Novelle 2016 nahe BCBS 239.  In der Funktionen-Sicht ergeben sich zudem Ähnlichkeiten zwischen FRTB, IRRBB und SA-CCR, die alle von Risk-Abteilungen wahrgenommen werden,  während sich in der Impact-Sicht IFRS 9 und FRTB – mit  Auswirkungen auf die Kapitalisierung – ähneln.

Angebotsstufen für einen regulatorischen Einsatz von Machine Learning-Verfahren

RiskDataScience ermöglicht Banken die beschriebenen Verfahren effizient und institutsspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Klassifikations- und Gruppierungsmethodik regulato-rischer Texte
  • Übergabe und Installation der vorhandenen Lösung zur Tagcloud-Generierung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Installation der vorhandenen RapidMiner-Lösung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken
    Bank ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Anpassung und ggf. Neuerstellung regulatorischer Ähnlichkeitskategorien gemäß Gegebenheiten der jeweiligen Bank
  • Analyse der konkreten Regularien, Projekte, Methoden, Prozesse und Systeme zur Identifizierung optimaler Einsatzmöglichkeiten
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholder
    Bank verfügt über gecustomizte Verfahren und Prozesse zur Analyse regulatorischer Anforderungen

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte, ggf. webbasierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter
  • Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung
  • Fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung
    Bank verfügt über automatisierte IT-Lösung zur effizienten Klassifizierung und Gruppierung regulatorisch relevanter Texte

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience