Association Rules Analyzer

Our free association rules analyzer can be accessed via this link

General information

The main task of the association analysis is the identification and validation of rules for the common occurrence of variables on the basis of past observation histories (“item lists”).
The variables can be of a variety of types, such as jointly purchased products in (online) commerce (“market basket analysis”). Accordingly, the determined rules can be used in a variety of ways, such as for buying recommendations of books or shelves compilations in supermarkets.

Association analysis has become established in recent years, especially in online and retail trade. In addition, however, it can also be applied to countless other areas ranging from the analysis of co-occurring characters in television series to the identification of cause-and-effect relationships of operational loss events.

The basis of popular association analysis methods are powerful algorithms for rule determination, such as the rule-finding “Apriori” algorithm.
In addition, some helpful metrics have been established to further investigate the rules found. The most common are:

  • Support. This is the frequency of common occurrence of variables. For example, 15% support for the combination (milk, eggs) means that milk and eggs were purchased in 15% of all observed purchases. The support does not depend on the order of the variables and can be between 0% and 100%.
  • Confidence. This means the security of a determined rule. An 80% confidence for the rule “Milk -> Eggs” would mean, for example, that in 80% of the cases where milk was bought, eggs were also purchased (for example, to bake cakes). Confidence is directional and can range from 0% to 100%.
  • Lift. This refers to the factor by which the common occurrence of variables is more frequent than would be expected if they were independent of each other. A lift of e.g. 3 for the combination (milk, eggs) would mean that this combination is three times more common than would be expected by chance. The lift can in principle assume any value greater than or equal to zero. A value greater than one implies that variables tend to coexist, a value less than one implies that they are more likely to be mutually exclusive.

Since the number of determined rules is often very large, it is usually essential to limit the rules in advance to a reasonable number. In particular, this can be done by setting lower limits for support and confidence and thus determining only the most important rules. The remaining rules can then be tabulated or graphically examined.

Our App

Goal

The goal of this free web app is to enable simple association analysis using uploadable item lists and adjustable measure thresholds.
From this, the corresponding rules are automatically determined and provided as a downloadable table and graphically.

We offer all of the methods available here also offline and in various extensions to B2B customers, for example for the analysis of operational loss events. We are happy to assist you with related questions.

Usage

The use of our association rules website is straight-forward.

After the reCAPTCHA test, an own CSV file (comma-separated UTF-8 file with no special characters, no header, and no index) can be uploaded and the minimum values for support (in %), confidence (in %) as well as lift boundaries for common and uncommon co-occurences (in absolute numbers) can be set. If no CSV file is uploaded, a sample file is used instead.

After clicking on “RUN” the calculation is started and the association rules are obtained and displayed.

Please note that the values of the support, confidence and lift boundaries have a significant effect on the number of the determined rules. Too low figures may result in a time-out due to a too high number of the obtained rules – too high figures may result in no rules at all. Therefore it is recommended to test different parameter combination for new datasets until the required results are obtained.

As an output of the calculation, the top rules are obtained, viz with the highest support and confidence (see below). The rule components “antecedents” and “consequents” are shown as separate columns, as well as the according support, confidence and lift.

In order to obtain more “interesting” rules, it is also possible to obtain exclusively the rules with a minimum lift (“Lift 1”). These rules are shown in a separate table (see below) and provide an indication for items that occur much more often commonly than it would be expected by chance.

The rules for the common co-occurences are also displayed graphically (see below) to enable a more efficient analysis.

Similarly, rules for rare common occurrence (i.e., elements that normally exclude each other) are also calculated and displayed. These rules are filtered by setting an upper limit for “Lift 2”.

The rules can also be downloaded as an XLS file.

Contact

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Data Science-based identification of co-occurring operational damage events

Overview Challenge and Offer

Operational risk is as great a threat as it is hard to analyze for both financial services and industrial companies.
In spite of complex models in practice, connections between different OpRisk events can hardly be identified in practice, and underlying causes often remain unrecognized.
On the other hand, data science methods have been already established for similar questions and allow the analysis of large amounts of different data in order to identify interdependencies, e.g. in the buying behavior of customers in online trading.

RiskDataScience  has adapted existing data science methods to the requirements of operational risk management and has developed algorithms to identify interdependencies between operational losses.
Herewith, companies are able to identify causal relationships between damages and spend less time in the search for common causes. The entire accumulated knowledge can be used efficiently in order to prevent future damage as far as possible or to anticipate it at an early stage.

Operational Risks

Types

Operational risks can be assigned to the following categories, depending on the cause

  • People: e.g. fraud, lack of knowledge, employee turnover
  • Processes: e.g. .g. transaction errors, project risks, reporting errors, valuation errors
  • Systems: e.g. programming errors, crashes
  • External events: e.g. lawsuits, theft, fire, flooding

Management

Usually, operational risks are categorized according to extent of damage and probability. Accordingly, suitable management strategies are:

  • Avoidance: for big, unnecessary risks
  • Insurance: for big, necessary risks
  • Mitigation: esp. for smaller risks with a high probability of occurrence
  • Acceptance: for risks that are part of the business model

Methods and Problem

The handling of operational risks is strictly regulated, especially in the financial services sector. For example, under Basel II / III, banks must underpin operational risks with equity capital. There are compulsory calculation schemes such as the Standardized Approach (SA) based on flat-rate factors and the Advanced Measurement Approach (AMA). The latter is based on distribution assumptions and will in future be replaced by the SA.

In terms of methodology, the following distinction is made among others between the treatment of operational risks:

  • Questionnaires and self-assessment: probablities and extents are determined in a rather qualitative way
  • Actuarial procedures: these are based on distribution assumptions based on past damage
  • Key risk indicator procedures: easily observable measures are identified that serve for early warning
  • Causal networks: interdependencies are mapped using Bayesian statistics

Interdependencies between and causes of operational risk can either not be determined at all or only in a very complex and error-prone manner.

Detecting relationships using data science techniques

Association analysis

For the analysis of the connections of several different events (“items“) methods from the field of association analysis are recommended.
The respective “market basket analysis” methods have already been established for several years and are used in particular in online commerce (for example, book recommendations in online commerce), search engine proposals or in retail (products on shelves).
Using association analysis, the common occurrence of different events can be identified directly and without distributional assumptions.
The enormous number of possible conclusions can be efficiently and properly limited by means of specially developed measures such as support, confidence and lift.
The analyses require programs based on appropriate analysis tools, e.g. Python, R or RapidMiner.

In addition, we offer a free web app for simple association analysis based on CSV files.

Analysis preparation

First, the damage data must be brought into a usable format for the analysis.
Depending on the type of damage, temporal aggregations (for example on a daily, weekly basis) must also be carried out.
Too often occurring or already explained types of damage have to be removed on the basis of expert assessments.

Analysis conduction

Before the start of the analysis, the criteria for the relevant inference rules should be set according to support and confidence. The determination of the criteria can be supported by graphics.
Subsequently, the conclusions of experts must be made plausible.
The steps should be repeated for all relevant time aggregations.

Use Case: analysis of a fictitious damage database

As an application example, a fictitious loss database of a bank was constructed for an entire year.
There were a total of 23 possible types of damage, including e.g. a flu epidemic, late reports, wrong valuations, and complaints about wrong advice. The following assumptions underlie the test example:

  • Bad transactions are very common
  • Deficiencies in the outsourcer hotline become apparent through requests for PC head crashes
  • Reporting staff usually drive by car and are affected by a snowstorm
  • After a valuation system crashes, wrong valuations occur
  • Thefts occur during work after fire in the meeting room
  • Staff shortages at suppliers lead to failed projects
  • Massive customer complaints after experienced employees leave customer service

Because the wrong transactions were very frequent and incoherent, they were removed first:

Damage frequency

First of all, all determined rules were graphically displayed to find the relevant support and confidence measurements.

Display of the rules on a daily basis

The restriction of the confidence to a minimum of 0.6 gives the list shown below.

Indentified interdependencies on a daily basis

Of the found coincidences, the green ones turn out to be valid after plausibility check.

On a weekly and monthly basis, the procedure was analogous:

Display of the rules on a weekly basis

 

Identified interdependencies on a weekly basis

 

Possible interdependencies on a monthly basis

After a plausibility check of possible causal relationships, all assumptions used in the preparation could be identified in the data.

Offer levels for using association analysis in OpRisk

RiskDataScience enables customers to use and develop the described processes efficiently and company-specifically. According to the respective requirements, the following three expansion stages are proposed.

Stage 1: Methodology

  • Introduction to the methodology of association analysis
  • Handover and installation of existing solutions based on Python, R and RapidMiner – or, depending on customer requirements, support of the on-site implementation
  • Transfer and documentation of the visualization and evaluation techniques

Customer is able to independently use and develop methodology.

Stage 2: Customizing

  • Stage 1 and additionally
  • Adaptation and possibly creation of criteria for rule selection according to circumstances of the respective customer
  • Analysis of specific risks, processes and systems to identify optimal applications
  • Development of a process description for an efficient use
  • Communication and documentation of results to all stakeholders

Customer has custom procedures and operational risk analysis processes.

Stage 3: IT Solution

  • Stage 1, Stage 2, and additionally
  • Specification of all requirements for an automated IT solution
  • Suggestion and contacting of potential providers
  • Support in provider and tool selection
  • Assistance in planning the implementation
  • Professional and coordinative support of the implementation project
  • Technical support after implementation of the IT solution

Customer has automated IT solution for efficient association analysis of operational risks.

Depending on customer requirements, a flexible design is possible. We are happy to explain our approach as part of a preliminary workshop.

Contact

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
Email: riskdatascience@web.de
Phone: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience

Data Science-basierte Identifizierung zusammenhängender operationeller Schadensereignisse

(For the English version click here)

Übersicht Problemstellung und Angebot

Operationelle Risiken stellen sowohl für Finanzdienstleister als auch für Industrieunternehmen eine ebenso große wie schwer zu analysierende Bedrohung dar.
Zusammenhänge zwischen verschiedenen OpRisk-Ereignissen können hierbei trotz komplexer Modelle in der Praxis kaum identifiziert werden und tieferliegende Ursachen bleiben oft unerkannt.
Andererseits haben sich Data Science-Verfahren für ähnliche Fragestellungen bereits etabliert und ermöglichen die Untersuchung großer Mengen unterschiedlicher Daten nach Zusammenhängen, etwa im Bereich der Analyse des Kaufverhaltens von Kunden im Onlinehandel.

RiskDataScience hat entsprechende Verfahren auf die Gegebenheiten operationeller Risiken angepasst und verfügt über bereits entwickelte Algorithmen zur Identifizierung von Interdependenzen zwischen operationellen Schäden.
Unternehmen können damit Kausalbeziehungen zwischen Schäden ausfindig machen, wodurch die Suche nach gemeinsamen Ursachen erleichtert wird. Das gesamte angesammelte Wissen kann effizient genutzt werden, um künftige Schäden möglichst zu vermeiden bzw. frühzeitig zu antizipieren.

Operationelle Risiken

Arten

Operationelle Risiken lassen sich je nach Ursache den folgenden Kategorien zuteilen

  • Menschen: z.B. Betrug, mangelnde Kenntnisse, Mitarbeiter-Fluktuation
  • Prozesse: z.B. Transaktionsfehler, Projektrisiken, Reportingfehler, Bewertungsfehler
  • Systeme: z.B. Programmierfehler, Abstürze
  • Externe Ereignisse: z.B. Klagen, Diebstahl, Feuer, Überschwemmungen

Management

Für gewöhnlich werden operationelle Risiken nach Schadensausmaß und Wahrscheinlichkeit kategorisiert. Entsprechend kommen als Managementstrategien infrage:

  • Vermeidung: Bei großen, unnötigen Risiken
  • Versicherung: Bei großen, nötigen Risiken
  • Verminderung: Insb. bei kleineren Risiken mit hoher Eintrittswahrscheinlichkeit
  • Inkaufnahme: Bei Risiken, die zum Geschäftsmodell gehören

Methoden und Problematik

Die Handhabung operationeller Risiken ist insbesondere im Finanzdienstleistungssektor streng geregelt. So müssen Banken nach Basel II/III operationelle Risiken mit Eigenkapital unterlegen. Hierfür gibt es vorgeschriebene Rechenschemata wie den auf pauschalen Faktoren basierenden Standardized Approach (SA) und den Advanced Measurement Approach (AMA). Letzterer basiert auf Verteilungsannahmen und wird künftig durch den SA ersetzt.

Methodisch unterscheidet man bei der Behandlung operationeller Risiken u.a. zwischen

  • Fragebögen und Self-Assessment: Es werden eher qualitativ Wahrscheinlichkeiten und Ausmaße ermittelt
  • Aktuariellen Verfahren: Diese basieren auf Verteilungsannahmen anhand vergangener Schäden
  • Key Risk Indicator-Verfahren: Es werden einfach beobachtbare Maße identifiziert, die zur Frühwarnung dienen
  • Kausale Netzwerke: Wirkzusammenhänge werden mittels Bayes-Statistik abgebildet

Zusammenhänge zwischen und Ursachen von operationeller Risiken können entweder überhaupt nicht oder nur auf sehr komplexe und fehleranfällige Weise ermittelt werden.

Erkennung von Zusammenhängen mittels Data Science-Verfahren

Assoziationsanalyse

Für die Analyse der Zusammenhänge mehrerer unterschiedlicher Ereignisse („Items“) bieten sich Methoden aus dem Gebiet der Assoziationsanalyse („Association Analysis“) an.
Entsprechende Methoden aus dem Bereich der Warenkorbanalyse haben sich bereits seit einigen Jahren etabliert und finden insbesondere im Online-Handel (z.B. Buchvorschläge im Online-Handel), Suchmaschinenvorschlägen oder im Einzelhandel (Produkte in Regalen) Verwendung.
Mittels der Assoziationsanalyse lässt sich das gemeinsame Auftreten unterschiedlicher Ereignissen unmittelbar und ohne Verteilungsannahmen identifizieren.
Die enorme Vielzahl möglicher Schlussfolgerungen lässt sich mittels eigens hierfür entwickelter Maße wie Support, Confidence und Lift effizient und sachgerecht einschränken.
Die Analysen erfordern Programme auf der Basis entsprechender Analysetools, wie z.B. R oder RapidMiner.

Zusätzlich bieten wir eine freie Web-App für einfache Assoziationsanalysen auf der Basis von CSV-Dateien an.

Analyse-Vorbereitung

Zunächst müssen die Schadensdaten in ein für die Analyse brauchbares Format gebracht werden.
Je nach Schadensart sind zudem zeitliche Aggregationen (z.B. auf Tages-, Wochenbasis) vorzunehmen.
Zu häufig vorkommende oder bereits erklärte Schadensarten sind – anhand von Experteneinschätzungen – zu entfernen.

Analyse-Durchführung

Vor dem Analysebeginn sind die Kriterien für die Schlussfolgerungsregeln gemäß Support und Confidence festzulegen. Die Festlegung der Kriterien kann (z.B. bei R) durch Grafiken unterstützt werden.
Anschließend müssen die Schlussfolgerungen von Experten plausibilisiert werden.
Die Schritte sind für alle relevanten zeitlichen Aggregationen zu wiederholen.

Anwendungsbeispiel: Analyse einer fiktiven Schadensdatenbank

Als Anwendungsbeispiel wurde eine fiktive Schadensdatenbank einer Bank für ein gesamtes Jahr konstruiert.
Es lagen insgesamt 23 mögliche Schadensarten vor, darunter z.B. eine Grippewelle, verspätete Reports, falsche Bewertungen, und Klagen wegen Falschberatung. Folgende Annahmen lagen dem Testbeispiel zugrunde:

  • Fehlerhafte Transaktionen sind sehr häufig
  • Mängel bei Outsourcer-Hotline werden bei Anfragen wg. PC-Headcrashes deutlich
  • Reporting-Mitarbeiter fahren meist Auto und sind von Schneesturm betroffen
  • Nach Abstürzen des Bewertungs-Systems kommt es zu Falschbewertungen
  • Diebstähle während Arbeiten nach Brand im Besprechungsraum
  • Personalengpässe bei Lieferanten führen zu gescheiterten Projekten
  • Massive Kundenbeschwerden nach Abgang von Kundenbetreuern

Da die fehlerhaften Transaktionen sehr oft und unzusammenhängend auftraten, wurden sie als erstes entfernt:

Häufigkeit der Schäden

Zunächst wurden – zur Ermittlung der relevanten Support- und Confidence-Maße sämtliche ermittelte Regeln grafisch dargestellt.

Auftragung der Schluss-Regeln auf Tagesbasis

Nach Einschränkung der Confidence auf ein Mindestmaß von 0,6 ergibt die u.g. Liste.

Identifizierte Zusammenhänge auf Tagesbasis

Von den gefundenen Koinzidenzen erweisen sich – nach Plausibilisierung – die grün markierten als valide.

Auf Wochen- und Monatsbasis wurde analog vorgegangen:

Auftragung der Schluss-Regeln auf Wochenbasis

 

Identifizierte Zusammenhänge auf Wochenbasis

 

Mögliche Zusammenhänge auf Monatsbasis

Nach entsprechender Plausibilisierung möglicher kausaler Beziehungen konnten sämtliche bei der Erstellung gebrauchten Annahmen in den Daten identifiziert werden.

Angebotsstufen für einen Einsatz der
Assoziationsanalyse im OpRisk

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und unternehmensspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in die Methodik der Assoziationsanalyse
  • Übergabe und Installation der vorhandenen Lösungen auf R– und RapidMiner-Basis – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken

Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln.

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Anpassung und ggf. Neuerstellung von Kriterien zur Regelauswahl gemäß Gegebenheiten des jeweiligen Kunden
  • Analyse der konkreten Risiken, Prozesse und Systeme zur Identifizierung optimaler Einsatzmöglichkeiten
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholde

Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse operationeller Risiken.

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter
  • Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung
  • Fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung

Kunde verfügt über automatisierte IT-Lösung zur effizienten Assoziationsanalyse operationeller Risiken.

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience