Machine Learning-basierte Newsticker-Priorisierung

Übersicht Problemstellung und Angebot

In den Handelsabteilungen von Finanzinstituten müssen oft weitreichende Entscheidungen in sehr kurzer Zeit getroffen werden. Aufgrund der enormen Anzahl verschiedener Wertpapiere, Derivate, Marktdaten und Nachrichten ist das Priorisieren und Einstufen der Informationen komplex und zeitaufwendig.

Machine Learning-Verfahren ermöglichen das automatische selektieren und priorisieren auch unstrukturierter Informationen wie Textnachrichten RiskDataScience verfügt über bereits entwickelte Algorithmen zur automatischen Klassifizierung von Nachrichten-Texten hinsichtlich Kurs-Relevanz.

Händler können aus einer Vielzahl unterschiedlicher Nachrichten zeitnah die wichtigen herausfiltern. Damit wird sowohl die Informationsbasis vergrößert als auch wertvolle Zeit eingespart.

Handelsrelevante Nachrichten

Allgemeines

In den Handelsabteilungen von Banken und Asset Managern werden weitreichende Entscheidungen bzgl. des Erwerbs oder Verkaufs von Assets und Derivaten getroffen.
Insbesondere im Wertpapierbereich ist es dabei aufgrund permanenter Marktschwankungen essentiell Entscheidungen zügig zu treffen.
Andererseits weisen die Finanzmärkte eine hohe Komplexität und ein hohes Risiko auf. Dies erfordert eine valide Berücksichtigung verschiedenster Informationen unter strategischen, Bewertungs- und Risiko-Aspekten.

Die gängigste Informationsquelle sind Marktdaten wie Aktien-, FX-, CS-Kurse, Zinsen und Rohstoffpreise. Daneben liegen unstrukturierte Daten zumeist in Form von Textnachrichten vor, die (im Ggs. zu den Marktdaten) für gewöhnlich noch keine Einschätzung des Marktes widerspiegeln.
Insbesondere in illiquiden Märkten sind Nachrichten oft viel aussagekräftiger und aktueller als Marktdaten. Nachrichten von Reuters oder Bloomberg liegen hierbei in standardisierter und einfach zu analysierender Form vor.

Effiziente Priorisierung und Einstufung

Für eine zeitnahe und angemessene Berücksichtigung der relevanten Informationen müssen Händler

  • Informationsquellen ermitteln, die für die jeweiligen Daten relevant sind.
  • Die tatsächlich wichtigen Informationen herausfiltern.
  • Die Informationen beurteilen und darauf aufbauend Entscheidungen treffen.

Insbesondere das manuelle Herausfiltern von Textnachrichten erweist sich hierbei als sehr zeitaufwendig, fehleranfällig und subjektiv.

Eine automatisierte Priorisierung von Nachrichten gemäß ihrer Wichtigkeit führt hingegen zu einer großen Zeitersparnis. Wichtige Nachrichten können damit in einer vorgegebenen Zeit effektiver und objektiver erkannt werden und Händler können sich auf Handelsstrategien fokussieren und werden zudem mit geeigneteren Informationen versorgt.

Priorisierung mittels Machine Learning-Verfahren

Methoden und Tools

Für die Nachrichten-Analyse kommen verschiedene Text Mining-Methoden aus dem Bereich Data Science / Machine Learning in Betracht. Die hierfür relevanten Supervised Learning-Algorithmen werden wie folgt eingesetzt:

  • Die Algorithmen werden mit bekannten Datensätzen darauf „trainiert“ Texte den jeweiligen Kategorien (z.B. wichtige Nachricht – unwichtige Nachricht) zuzuordnen.
  • „Unbekannte“ Texte können bekannten Kategorien mit bestimmten Konfidenzen zugeordnet werden.
  • Die Güte der Klassifikation wird mittels spezifischer Kennzahlen und Validierungsverfahren wie der Accuracy (Trefferquote), der Area Under the Curve (AUC; Plot Anteil True Positives über Anteil False Positives) oder Lift-Kurven (Pareto-Plot; Effektivitätstest mittels Vergleich mit Zufallsauswahl) überprüft.

Die Analysen erfordern Programme auf der Basis entsprechender Analysetools, wie z.B. R oder RapidMiner.

Analyse-Vorbereitung

Zunächst muss die Kategorisierung der Trainings-Nachrichten gemäß ihrer Wichtigkeit wie folgt durchgeführt werden:

  • Die Unternehmens-Nachrichten werden den jeweiligen Marktwertänderungen (z.B. Aktien-Returns) zugeordnet
  • Die Nachrichten werden anhand dieser Änderungen nach fachlichen Kriterien den Kategorien zugeordnet (z.B. bei Schwankungen größer σ der Kategorie „wichtig“).

Zudem müssen Stopword-Listen, d.h. Listen auszuschliessender missverständlicher oder zu häufig auftretender Begriffe, gebildet werden.

Analyse-Durchführung

Hierbei werden aus den gemäß Stopword-Listen bereinigten Texten Wortstämme gebildet.
Aus den Texten werden anschließend nach informationstheoretischen Kriterien die signifikanten Wörter und Wortkombinationen extrahiert (n-grams).
Die Texte werden dann als Punkte in einem hochdimensionalen Raum mit den n-grams als Dimensionen dargestellt (Term Document Matrix, TDM).
Per Supervised Learning-Algorithmen werden im Anschluss Kriterien zur Trennung der Punktwolken ermittelt.
Die Ergebnisse sind noch mit spezialisierten Verfahren zu validieren.

Angebotsstufen für eine Priorisierung von Handels-Nachrichten mittels Machine Learning-Verfahren

RiskDataScience ermöglicht Kunden die beschriebenen Verfahren effizient und institutsspezifisch einzusetzen und weiterzuentwickeln. Entsprechend den jeweiligen Anforderungen werden dazu folgende drei Ausbaustufen vorgeschlagen.

Stufe 1: Methodik

  • Einweisung in Klassifikationsmethodik von Nachrichtentexten
  • Übergabe und Installation der vorhandenen Lösung zur Tagcloud-Generierung
  • Übergabe und Installation der vorhandenen RapidMiner-Lösung – bzw. je nach Kundenanforderung Unterstützung der Implementierung vor Ort
  • Übergabe und Dokumentation der Visualisierungs- und Auswertetechniken

Kunde ist in der Lage Methodik eigenständig zu verwenden und weiterzuentwickeln.

Stufe 2: Customizing

  • Stufe 1 und zusätzlich
  • Anpassung und ggf. Neuerstellung von Referenzgruppen gemäß Portfolien des Kunden
  • Entwicklung geeigneter Kennzahlen (wie z.B. Volatilitätsmaßen) für die Kategorisierung gemäß Portfolien und Handelsstrategie des Kunden
  • Entwicklung einer Prozessbeschreibung für einen effizienten Einsatz
  • Kommunikation und Dokumentation der Ergebnisse an alle Stakeholder

Kunde verfügt über gecustomizte Verfahren und Prozesse zur Analyse von Nachrichtentexten.

Stufe 3: IT-Lösung

  • Stufe 1, Stufe 2 und zusätzlich
  • Spezifikation aller Anforderungen für eine automatisierte, ggf. webbasierte IT-Lösung
  • Vorschlag und Kontaktierung möglicher Anbieter und Unterstützung bei der Anbieter- und Tool-Auswahl
  • Unterstützung bei der Planung der Umsetzung sowie fachliche und koordinative Begleitung des Umsetzungsprojekts
  • Fachlicher Support nach Implementierung der IT-Lösung

Kunde verfügt über automatisierte IT-Lösung zur Priorisierung von Nachrichten in Echtzeit.

Je nach Kundenwunsch ist eine flexible Ausgestaltung möglich. Gerne erläutern wir unseren Ansatz auch im Rahmen eines Vorab-Workshops.

Kontakt

Dr. Dimitrios Geromichalos
Founder / CEO
RiskDataScience UG (haftungsbeschränkt)
Theresienhöhe 28, 80339 München
E-Mail: riskdatascience@web.de
Telefon: +4989244407277, Fax: +4989244407001
Twitter: @riskdatascience