Monday, 16 January 2017

Automatisierte Handelssystemarchitektur

Algorithmisches Trading System Architecture Bisher habe ich in diesem Blog über die konzeptionelle Architektur eines intelligenten algorithmischen Handelssystems sowie die funktionalen und nicht-funktionalen Anforderungen eines algorithmischen Produktionssystems geschrieben. Seitdem habe ich eine Systemarchitektur entworfen, von der ich glaube, dass sie diese architektonischen Anforderungen erfüllen kann. In diesem Beitrag werde ich beschreiben die Architektur nach den Richtlinien der ISOIECIEEE 42010 Systeme und Software Engineering Architektur Beschreibung Standard. Nach dieser Norm muss eine Architekturbeschreibung enthalten: Mehrere standardisierte architektonische Ansichten (z. B. in UML) enthalten und die Rückverfolgbarkeit zwischen Entwurfsentscheidungen und architektonischen Anforderungen beibehalten Softwarearchitekturdefinition Es gibt noch keinen Konsens darüber, was eine Systemarchitektur ist. Im Rahmen dieses Artikels wird sie als die Infrastruktur definiert, innerhalb der Anwendungskomponenten, die funktionalen Anforderungen genügen, spezifiziert, implementiert und ausgeführt werden können. Funktionale Anforderungen sind die erwarteten Funktionen des Systems und seiner Komponenten. Nicht funktionale Anforderungen sind Maßnahmen, durch die die Qualität des Systems gemessen werden kann. Ein System, das seine funktionalen Anforderungen voll erfüllt, kann die Erwartungen nicht erfüllen, wenn nicht funktionale Anforderungen unbefriedigt bleiben. Um dieses Konzept zu veranschaulichen, betrachten Sie das folgende Szenario: ein algorithmisches Handelssystem, das Sie gerade gekauft haben, macht ausgezeichnete Handelsentscheidungen, ist aber völlig inoperabel mit den Organisationen Risikomanagement und Buchhaltungssysteme. Würde dieses System Ihren Erwartungen entsprechen Konzeptionelle Architektur Eine konzeptionelle Sicht beschreibt hochrangige Konzepte und Mechanismen, die im System auf höchster Granularität existieren. Auf dieser Ebene folgt das algorithmische Handelssystem einer ereignisgesteuerten Architektur (EDA), die über vier Schichten aufgebrochen ist, und zwei architektonische Aspekte. Für jede Schicht - und Aspektreferenz werden Architekturen und Muster verwendet. Architektonische Muster sind bewährte, generische Strukturen, um spezifische Anforderungen zu erfüllen. Architektonische Aspekte sind Querschnittsaufgaben, die sich über mehrere Komponenten erstrecken. Ereignisgetriebene Architektur - eine Architektur, die Ereignisse erzeugt, erkennt, konsumiert und reagiert. Ereignisse umfassen Echtzeitbewegungen, komplexe Ereignisse oder Trends und Handelsereignisse, z. B. Einreichung einer Bestellung. Dieses Diagramm veranschaulicht die konzeptionelle Architektur des algorithmischen Handelssystems Referenzarchitekturen Um eine Analogie zu verwenden, ähnelt eine Referenzarchitektur den Blaupausen für eine tragende Wand. Dieses Blau-Druck kann für mehrfache Gebäudeentwürfe wiederverwendet werden, unabhängig davon, welches Gebäude errichtet wird, da es einen Satz von allgemein auftretenden Anforderungen erfüllt. Ähnlich definiert eine Referenzarchitektur eine Vorlage, die generische Strukturen und Mechanismen enthält, die verwendet werden können, um eine konkrete Softwarearchitektur zu konstruieren, die spezifischen Anforderungen genügt. Die Architektur für das algorithmische Handelssystem verwendet eine raumbasierte Architektur (SBA) und einen Model View Controller (MVC) als Referenzen. Gute Vorgehensweisen wie der Betriebsdaten-Speicher (ODS), das Extrakt-Transformations - und Belastungsmuster (ETL) und ein Data Warehouse (DW) werden ebenfalls verwendet. Modellansicht-Controller - ein Muster, das die Darstellung von Informationen von der Benutzerinteraktion mit ihr trennt. Raumbasierte Architektur - spezifiziert eine Infrastruktur, in der lose gekoppelte Verarbeitungseinheiten miteinander über einen gemeinsamen assoziativen Speicher mit dem Namen Space interagieren (siehe unten). Strukturansicht Die Strukturansicht einer Architektur zeigt die Komponenten und Unterkomponenten des algorithmischen Handelssystems. Es zeigt auch, wie diese Komponenten auf physische Infrastruktur eingesetzt werden. Die in dieser Ansicht verwendeten UML-Diagramme umfassen Komponentendiagramme und Bereitstellungsdiagramme. Im Folgenden finden Sie eine Übersicht der Implementierungsdiagramme des algorithmischen Handelssystems und der Verarbeitungseinheiten in der SBA-Referenzarchitektur sowie zugehörige Komponentendiagramme für die einzelnen Schichten. Architectural Tactics Nach dem Software Engineering Institute ist eine architektonische Taktik ein Mittel zur Befriedigung einer Qualitätsanforderung durch Manipulation eines Aspekts eines Qualitätsattributmodells durch architektonische Designentscheidungen. Ein einfaches Beispiel, das in der algorithmischen Handelssystemarchitektur verwendet wird, ist, einen operativen Datenspeicher (ODS) mit einer kontinuierlichen Abfragekomponente zu manipulieren. Diese Komponente würde das ODS kontinuierlich analysieren, um komplexe Ereignisse zu identifizieren und zu extrahieren. Folgende Taktiken werden in der Architektur verwendet: Das Disruptormuster im Ereignis - und Auftragswarteschlange Gemeinsamer Speicher für die Ereignis - und Auftragswarteschlangen Ununterbrochene Abfragesprache (CQL) auf dem ODS Datenfilterung mit dem Filterentwurfsmuster auf eingehenden Daten Vermeidungsalgorithmen auf allen Eingehende und ausgehende Verbindungen Active Queue Management (AQM) und explizite Staubenachrichtigung Rohstoffrechenressourcen mit Upgradefähigkeit (skalierbar) Aktive Redundanz für alle Single Points of Fail Indexierung und optimierte Persistenzstrukturen im ODS Planen Sie regelmäßige Datensicherungs - und Bereinigungsskripts für ODS Transaktionshistorie auf allen Datenbanken Prüfsummen für alle Aufträge, um Fehler zu erkennen Annotieren von Ereignissen mit Zeitstempeln, um veraltete Ereignisse zu überspringen Bestellen von Validierungsregeln zB Maximale Handelsmengen Automatisierte Händlerkomponenten verwenden eine Speicher-Datenbank für die Analyse Zweistufige Authentifizierung für Benutzeroberflächen, die eine Verbindung zu den ATs herstellen Verschlüsselung auf Benutzerschnittstellen und Verbindungen zu den ATs Observer-Entwurfsmuster für das MVC, um Ansichten zu verwalten Die obige Liste sind nur ein paar Design Entscheidungen, die ich bei der Gestaltung der Architektur identifiziert habe. Es ist nicht eine vollständige Liste der Taktiken. Da das System entwickelt wird, sollten zusätzliche Taktiken auf mehreren Ebenen der Granularität eingesetzt werden, um funktionale und nicht-funktionale Anforderungen zu erfüllen. Unten sind drei Diagramme, die das Disruptor-Designmuster, das Filterentwurfsmuster und die kontinuierliche Abfragekomponente beschreiben. Verhaltensansicht Diese Ansicht einer Architektur zeigt, wie die Komponenten und Schichten miteinander interagieren sollen. Dies ist hilfreich bei der Erstellung von Szenarien zum Testen von Architekturentwürfen und zum Verständnis des Systems von Ende zu Ende. Diese Ansicht besteht aus Sequenzdiagrammen und Aktivitätsdiagrammen. Aktivitätsdiagramme, die den internen Prozess der algorithmischen Handelssysteme zeigen und wie Händler mit dem algorithmischen Handelssystem interagieren sollen, sind nachfolgend dargestellt. Technologien und Rahmenbedingungen Der letzte Schritt beim Entwerfen einer Softwarearchitektur besteht darin, mögliche Technologien und Rahmenbedingungen zu identifizieren, die zur Verwirklichung der Architektur genutzt werden könnten. Grundsätzlich ist es sinnvoll, bestehende Technologien auszuschöpfen, sofern sie sowohl funktionale als auch nicht funktionale Anforderungen adäquat erfüllen. Ein Framework ist eine realisierte Referenzarchitektur, z. B. JBoss ist ein Framework, das die JEE-Referenzarchitektur realisiert. Die folgenden Technologien und Frameworks sind interessant und sollten bei der Implementierung eines algorithmischen Handelssystems berücksichtigt werden: CUDA - NVidia verfügt über eine Reihe von Produkten, die eine hochleistungsfähige Computational Finance Modellierung unterstützen. Man kann bis zu 50x Performance-Verbesserungen in der Ausführung von Monte Carlo Simulationen auf der GPU anstelle der CPU erreichen. Apache River - River ist ein Tool-Kit zur Entwicklung verteilter Systeme. Es wurde als Rahmen für den Aufbau von Anwendungen auf der Grundlage der SBA-Muster Apache Hadoop - für den Fall, dass pervasive Logging ist eine Anforderung, dann die Verwendung von Hadoop bietet eine interessante Lösung für die Big-Data-Problem. Hadoop kann in einer Clusterumgebung eingesetzt werden, die CUDA-Technologien unterstützt. AlgoTrader - eine Open-Source-algorithmische Handelsplattform. AlgoTrader könnte an Stelle der automatisierten Händlerkomponenten eingesetzt werden. FIX Engine - eine eigenständige Anwendung, die die Financial Information Exchange (FIX) - Protokolle einschließlich FIX, FAST und FIXatdl unterstützt. Obwohl es sich nicht um eine Technologie oder ein Framework handelt, sollten Komponenten mit einer API (Application Programming Interface) aufgebaut werden, um die Interoperabilität des Systems und seiner Komponenten zu verbessern. Fazit Die vorgeschlagene Architektur wurde entwickelt, um sehr allgemeine Anforderungen für algorithmische Handelssysteme zu erfüllen. Im Allgemeinen werden algorithmische Handelssysteme durch drei Faktoren kompliziert, die bei jeder Implementierung variieren: Abhängigkeiten von externen Unternehmen und Tauschsystemen Herausforderung an nicht funktionale Anforderungen und Entwicklung von architektonischen Zwängen Die vorgeschlagene Softwarearchitektur müsste daher im Einzelfall von Fall zu Fall angepasst werden Um spezifische organisatorische und regulatorische Anforderungen zu erfüllen sowie regionale Zwänge zu überwinden. Die algorithmische Handelssystemarchitektur sollte nur als Referenz für Einzelpersonen und Organisationen betrachtet werden, die ihre eigenen algorithmischen Handelssysteme entwerfen wollen. Für eine vollständige Kopie und Quellen verwendet, laden Sie bitte eine Kopie meines Berichts. Thank you. Best Programmiersprache für algorithmische Handelssysteme Eine der häufigsten Fragen, die ich im QS Mailbag erhalten, ist Was ist die beste Programmiersprache für algorithmischen Handel. Die kurze Antwort ist, dass es keine beste Sprache. Strategieparameter, Leistung, Modularität, Entwicklung, Resiliency und Kosten müssen berücksichtigt werden. Dieser Artikel wird skizzieren die notwendigen Komponenten einer algorithmischen Handelssystemarchitektur und wie Entscheidungen über die Umsetzung beeinflussen die Wahl der Sprache. Zuerst werden die Hauptkomponenten eines algorithmischen Handelssystems betrachtet, wie die Forschungsinstrumente, der Portfoliooptimierer, der Risikomanager und die Ausführungsmaschine. Anschließend werden verschiedene Handelsstrategien untersucht und auf die Gestaltung des Systems eingegangen. Insbesondere werden die Handelshäufigkeit und das voraussichtliche Handelsvolumen diskutiert. Sobald die Handelsstrategie ausgewählt worden ist, ist es notwendig, das gesamte System zu gestalten. Dies beinhaltet die Wahl der Hardware, des Betriebssystems und der Systemresistenz gegenüber seltenen, potentiell katastrophalen Ereignissen. Während die Architektur in Erwägung gezogen wird, muss auf die Leistung - sowohl auf die Forschungsinstrumente als auch auf die Live-Ausführungsumgebung - geachtet werden. Was ist das Handelssystem zu tun, bevor die Entscheidung über die beste Sprache, mit der ein automatisiertes Handelssystem zu schreiben, ist es notwendig, die Anforderungen zu definieren. Ist das System wird rein Ausführungsbasis Will das System erfordern ein Risikomanagement oder Portfolio-Bau-Modul Wird das System erfordern eine leistungsstarke Backtester Für die meisten Strategien kann das Handelssystem in zwei Kategorien aufgeteilt werden: Forschung und Signal-Generierung. Die Forschung befasst sich mit der Bewertung einer Strategieleistung gegenüber historischen Daten. Der Prozess der Bewertung einer Handelsstrategie gegenüber früheren Marktdaten wird als Backtesting bezeichnet. Die Datengröße und die algorithmische Komplexität werden einen großen Einfluss auf die Rechenintensität des Backtests haben. CPU-Geschwindigkeit und Parallelität sind oft die begrenzenden Faktoren bei der Optimierung der Durchführungsgeschwindigkeit. Die Signalerzeugung betrifft die Erzeugung eines Satzes von Handelssignalen aus einem Algorithmus und das Senden solcher Befehle an den Markt, üblicherweise über eine Vermittlung. Für bestimmte Strategien ist ein hohes Leistungsniveau erforderlich. IO-Probleme wie Netzwerkbandbreite und Latenz sind oft der limitierende Faktor bei der Optimierung von Ausführungssystemen. So kann die Wahl der Sprachen für jede Komponente Ihres gesamten Systems ganz anders sein. Art, Häufigkeit und Umfang der Strategie Die Art der verwendeten algorithmischen Strategie hat erhebliche Auswirkungen auf die Gestaltung des Systems. Es wird notwendig sein, die Märkte zu betrachten, die gehandelt werden, die Konnektivität zu externen Datenanbietern, die Häufigkeit und das Volumen der Strategie, der Kompromiss zwischen der Leichtigkeit der Entwicklung und der Leistungsoptimierung sowie jegliche benutzerdefinierte Hardware einschließlich der gemeinsamen Sitzungen Server, GPUs oder FPGAs, die erforderlich sein könnten. Die Technologieentscheidungen für eine niederfrequente US-Aktienstrategie werden sich weitgehend von denen eines hochfrequenten statistischen Arbitrage-Strategiehandels auf dem Futures-Markt unterscheiden. Vor der Wahl der Sprache müssen viele Datenanbieter ausgewertet werden, die sich auf die vorliegende Strategie beziehen. Es wird notwendig sein, die Konnektivität zu dem Anbieter, die Struktur von beliebigen APIs, die Aktualität der Daten, die Speicheranforderungen und die Ausfallsicherheit in Anbetracht eines Offline-Vendors zu prüfen. Es ist auch ratsam, schnellen Zugriff auf mehrere Anbieter zu haben. Verschiedene Instrumente haben alle ihre eigenen Speicherquirks, wobei Beispiele davon mehrere Tickersymbole für Aktien und Verfallsdaten für Futures (ganz zu schweigen von spezifischen OTC-Daten) umfassen. Dies muss in der Plattform-Design berücksichtigt werden. Häufigkeit der Strategie ist wahrscheinlich einer der größten Treiber, wie der Technologie-Stack definiert werden. Strategien, die Daten häufiger als minutiös oder sekundär verwenden, erfordern eine beträchtliche Betrachtung hinsichtlich der Leistung. Eine Strategie, die zweite Balken überschreitet (d. H. Tick-Daten), führt zu einem leistungsgetriebenen Design als die primäre Anforderung. Für Hochfrequenzstrategien muss eine erhebliche Menge an Marktdaten gespeichert und ausgewertet werden. Software wie HDF5 oder kdb werden häufig für diese Rollen verwendet. Um die umfangreichen Datenmengen für HFT-Anwendungen zu verarbeiten, muss ein ausgereiftes Backtester - und Ausführungssystem eingesetzt werden. CC (möglicherweise mit einigen Assembler) ist wahrscheinlich der stärkste Sprachkandidat. Ultra-Hochfrequenz-Strategien werden mit großer Wahrscheinlichkeit kundenspezifische Hardware wie FPGAs, Austausch Co-Location und kernalnetwork Interface-Tuning. Forschungssysteme Forschungssysteme umfassen typischerweise eine Mischung aus interaktiver Entwicklung und automatisiertem Scripting. Ersteres findet oft in einer IDE wie Visual Studio, MatLab oder R Studio statt. Letztere umfassen umfangreiche numerische Berechnungen über zahlreiche Parameter und Datenpunkte. Dies führt zu einer Sprachauswahl, die eine einfache Umgebung zum Testen von Code bereitstellt, aber auch eine ausreichende Leistung bietet, um Strategien über mehrere Parameterabmessungen auszuwerten. Typische IDEs in diesem Bereich sind Microsoft Visual CC, das umfangreiche Debugging-Dienstprogramme, Codevollzugsfunktionen (über Intellisense) und einfache Übersichten über den gesamten Projektstapel (über die Datenbank ORM, LINQ) MatLab enthält. Die für umfangreiche numerische lineare Algebra und vectorized Operationen, sondern in einer interaktiven Konsole Weise R Studio. Die die statistische Sprachkonsole R in einer vollwertigen IDE-Eclipse-IDE für Linux-Java und C und semi-proprietären IDEs wie Enthought Canopy für Python, die Datenanalyse-Bibliotheken wie NumPy enthalten, umschließt. SciPy Scikit-lernen und Pandas in einer einzigen interaktiven (Konsolen-) Umgebung. Für das numerische Backtesting sind alle obigen Sprachen geeignet, obwohl es nicht notwendig ist, ein GUIIDE zu verwenden, da der Code im Hintergrund ausgeführt wird. Die Hauptbetrachtung in diesem Stadium ist die der Ausführungsgeschwindigkeit. Eine kompilierte Sprache (wie C) ist oft nützlich, wenn die Dimension des Backtesting-Parameters groß ist. Denken Sie daran, dass es notwendig ist, von solchen Systemen vorsichtig zu sein, wenn dies der Fall ist. Interpretierte Sprachen wie Python nutzen oft Hochleistungsbibliotheken wie NumPypandas für den Backtesting-Schritt, um einen angemessenen Grad an Wettbewerbsfähigkeit mit kompilierten Äquivalenten beizubehalten. Letztlich wird die für das Backtesting gewählte Sprache durch spezifische algorithmische Bedürfnisse sowie die Bandbreite der in der Sprache verfügbaren Bibliotheken bestimmt (weiter unten). Die Sprache, die für die Backtester - und Forschungsumgebungen verwendet wird, kann jedoch vollständig unabhängig von denjenigen sein, die in den Bereichen Portfolio-Konstruktion, Risikomanagement und Ausführungskomponenten verwendet werden. Portfolio-Bau und Risikomanagement Die Komponenten des Portfoliokonstruktions - und Risikomanagements werden oft von den Handelsalgorithmusern übersehen. Das ist fast immer ein Fehler. Diese Instrumente bieten den Mechanismus, durch den das Kapital erhalten bleibt. Sie versuchen nicht nur, die Anzahl der riskanten Wetten zu lindern, sondern auch die Abwanderung der Trades selbst zu minimieren und so die Transaktionskosten zu senken. Ausgefeilte Versionen dieser Komponenten können erhebliche Auswirkungen auf die Qualität und Wirtschaftlichkeit der Rentabilität haben. Es ist unkompliziert, eine stabile Strategie zu schaffen, da der Portfoliokonstruktionsmechanismus und der Risikomanager einfach modifiziert werden können, um mehrere Systeme zu behandeln. Sie sollten daher zu Beginn des Entwurfs eines algorithmischen Handelssystems als wesentliche Komponenten betrachtet werden. Die Aufgabe des Portfolio-Bau-System ist es, eine Reihe von gewünschten Trades zu nehmen und produzieren die Menge der tatsächlichen Trades, minimieren churn, halten Exposures zu verschiedenen Faktoren (wie Sektoren, Asset-Klassen, Volatilität etc.) und optimieren die Zuweisung von Kapital an verschiedene Strategien in einem Portfolio. Portfolio-Konstruktion reduziert oft auf eine lineare Algebra Problem (wie eine Matrix-Faktorisierung) und damit die Leistung ist stark abhängig von der Wirksamkeit der numerischen linearen Algebra-Implementierung zur Verfügung. Gemeinsame Bibliotheken sind uBLAS. LAPACK und NAG für C. MatLab besitzt auch umfangreich optimierte Matrixoperationen. Python nutzt NumPySciPy für solche Berechnungen. Ein häufig ausgeglichenes Portfolio erfordert eine kompilierte (und gut optimierte) Matrixbibliothek, um diesen Schritt auszuführen, um das Handelssystem nicht zu verkleinern. Das Risikomanagement ist ein weiterer äußerst wichtiger Bestandteil eines algorithmischen Handelssystems. Das Risiko kann in vielen Formen auftreten: Erhöhte Volatilität (obwohl dies für bestimmte Strategien als wünschenswert angesehen werden kann), erhöhte Korrelationen zwischen Assetklassen, Gegenpartei-Default, Serverausfällen, Black Swan-Ereignissen und unentdeckten Bugs im Handelscode wenige. Risikomanagementkomponenten versuchen, die Effekte einer übermäßigen Volatilität und Korrelation zwischen den Assetklassen und ihren nachfolgenden Auswirkungen auf das Handelskapital vorwegzunehmen. Oft reduziert dies auf eine Reihe von statistischen Berechnungen wie Monte Carlo Stresstests. Dies ist sehr ähnlich zu den rechnerischen Bedürfnissen einer Derivate-Preis-Engine und als solche CPU-gebunden werden. Diese Simulationen sind sehr parallelisierbar (siehe unten) und bis zu einem gewissen Grad ist es möglich, Hardware auf das Problem zu werfen. Ausführungssysteme Die Aufgabe des Ausführungssystems besteht darin, gefilterte Handelssignale von den Portfolio-Bau - und Risikomanagementkomponenten zu empfangen und an eine Brokerage oder andere Mittel des Marktzugangs zu senden. Für die Mehrheit der Einzelhandel algorithmischen Handelsstrategien beinhaltet dies eine API oder FIX-Verbindung zu einem Brokerage wie Interactive Brokers. Die primären Erwägungen bei der Entscheidung über eine Sprache beinhalten die Qualität der API, die Verfügbarkeit der Sprachverpackung für eine API, die Ausführungshäufigkeit und den erwarteten Schlupf. Die Qualität der API bezieht sich darauf, wie gut sie dokumentiert ist, welche Art von Leistung sie bereitstellt, ob sie auf eine eigenständige Software zugreift oder ob ein Gateway kopflos aufgebaut werden kann (d. h. keine GUI). Im Fall von Interactive Brokers muss das Trader WorkStation-Tool in einer GUI-Umgebung ausgeführt werden, um auf deren API zuzugreifen. Ich musste einmal eine Desktop-Ubuntu-Edition auf einem Amazon-Cloud-Server installieren, um auf interaktive Broker remote zuzugreifen, rein aus diesem Grund. Die meisten APIs bieten eine C-andor-Java-Schnittstelle. In der Regel ist es Aufgabe der Community, sprachspezifische Wrapper für C, Python, R, Excel und MatLab zu entwickeln. Beachten Sie, dass mit jedem zusätzlichen Plugin (vor allem API-Wrapper) gibt es Spielraum für Bugs in das System kriechen. Teste immer Plugins dieser Art und sorge dafür, dass sie aktiv gepflegt werden. Ein lohnendes Maß ist zu sehen, wie viele neue Updates zu einer Codebase in den letzten Monaten gemacht wurden. Die Ausführungshäufigkeit ist für den Ausführungsalgorithmus von größter Bedeutung. Beachten Sie, dass Hunderte von Bestellungen können jede Minute gesendet werden und als solche Leistung ist von entscheidender Bedeutung. Schlupf wird durch ein schlecht durchführendes Ausführungssystem entstehen und dies wird sich dramatisch auf die Rentabilität auswirken. Statisch typisierte Sprachen (siehe unten) wie CJava sind im Allgemeinen optimal für die Ausführung, aber es gibt einen Kompromiss in der Entwicklungszeit, der Prüfung und der einfachen Wartung. Dynamisch getippte Sprachen wie Python und Perl sind mittlerweile meist schnell genug. Achten Sie immer darauf, dass die Komponenten modular aufgebaut sind (siehe unten), so dass sie bei der Systemwaage ausgetauscht werden können. Architektonischer Planungs - und Entwicklungsprozess Die Komponenten eines Handelssystems, dessen Frequenz - und Volumenanforderungen wurden bereits diskutiert, die Systeminfrastruktur ist jedoch noch nicht abgedeckt. Diejenigen, die als Einzelhändler oder arbeiten in einem kleinen Fonds wird wahrscheinlich tragen viele Hüte. Es wird notwendig sein, die Alpha-Modell-, Risikomanagement - und Ausführungsparameter sowie die endgültige Implementierung des Systems abzudecken. Vor dem Einarbeiten in bestimmte Sprachen wird das Design einer optimalen Systemarchitektur erörtert. Trennung von Bedenken Eine der wichtigsten Entscheidungen, die von vornherein getroffen werden müssen, ist die Trennung der Bedenken eines Handelssystems. In der Softwareentwicklung bedeutet dies im Wesentlichen, wie die verschiedenen Aspekte des Handelssystems in separate modulare Komponenten zerlegt werden. Durch die Freigabe von Schnittstellen an jedem der Komponenten ist es leicht, Teile des Systems für andere Versionen auszutauschen, die Leistung, Zuverlässigkeit oder Wartung unterstützen, ohne einen externen Abhängigkeitscode zu modifizieren. Dies ist die beste Vorgehensweise für solche Systeme. Für Strategien bei niedrigeren Frequenzen werden solche Praktiken empfohlen. Für Ultra-Hochfrequenz-Handel das Regelbuch muss auf Kosten der Optimierung des Systems für noch mehr Leistung ignoriert werden. Ein dichter gekoppeltes System kann wünschenswert sein. Das Erstellen einer Komponentenkarte eines algorithmischen Handelssystems ist einen Artikel wert. Ein optimaler Ansatz ist jedoch sicherzustellen, dass es separate Komponenten für die historischen und Echtzeit-Marktdateneingänge, Datenspeicherung, Datenzugriffs-API, Backtester, Strategieparameter, Portfolio-Konstruktion, Risikomanagement und automatisierte Ausführungssysteme gibt. Wenn beispielsweise der verwendete Datenspeicher selbst bei signifikanten Optimierungsniveaus noch unterdurchschnittlich ist, kann er mit minimalen Wiederbeschreibungen in die Datenaufnahme - oder Datenzugriffs-API ausgelagert werden. Soweit es die Backtester und nachfolgende Komponenten betrifft, gibt es keinen Unterschied. Ein weiterer Vorteil von getrennten Komponenten ist, dass es eine Vielzahl von Programmiersprachen für das Gesamtsystem verwendet werden kann. Es muss nicht auf eine einzige Sprache beschränkt werden, wenn die Kommunikationsmethode der Komponenten sprachunabhängig ist. Dies ist der Fall, wenn sie über TCPIP, ZeroMQ oder ein anderes sprachunabhängiges Protokoll kommunizieren. Als konkretes Beispiel betrachten wir den Fall eines Backtesting-Systems, das in C für die Anzahl der Crunching-Leistungen geschrieben wird, während der Portfolio-Manager und die Ausführungssysteme in Python unter Verwendung von SciPy und IBPy geschrieben werden. Performance-Überlegungen Performance ist eine wesentliche Überlegung für die meisten Trading-Strategien. Für höhere Frequenzstrategien ist es der wichtigste Faktor. Die Performance umfasst eine breite Palette von Problemen wie algorithmische Ausführungsgeschwindigkeit, Netzwerklatenz, Bandbreite, Daten-IO, Concurrencyparallelität und Skalierung. Jeder dieser Bereiche werden einzeln durch große Lehrbücher abgedeckt, so dass dieser Artikel nur die Oberfläche jedes Themas kratzen wird. Architektur und Sprachwahl werden nun im Hinblick auf ihre Auswirkungen auf die Leistung diskutiert. Die vorherrschende Weisheit, wie von Donald Knuth angegeben. Einer der Väter der Informatik, ist, dass vorzeitige Optimierung die Wurzel allen Übels ist. Dies ist fast immer der Fall - außer beim Bau eines Hochfrequenz-Handel Algorithmus Für diejenigen, die in niedrigere Frequenz-Strategien interessiert sind, ist ein gemeinsamer Ansatz, um ein System auf die einfachste Weise möglich und nur so optimieren, wie Engpässe zu erscheinen beginnen. Mit Hilfe von Profilierwerkzeugen wird ermittelt, wo Engpässe auftreten. Profile können für alle oben aufgeführten Faktoren in einer MS Windows - oder Linux-Umgebung erstellt werden. Es gibt viele Betriebssysteme und Sprach-Tools zur Verfügung, um dies zu tun, sowie Drittanbieter-Dienstprogramme. Die Sprachwahl wird im Rahmen der Performance diskutiert. C, Java, Python, R und MatLab enthalten alle Hochleistungsbibliotheken (entweder im Standard oder extern) für grundlegende Datenstrukturen und algorithmische Arbeiten. C mit der Standardvorlagenbibliothek, während Python NumPySciPy enthält. Gemeinsame mathematische Aufgaben sind in diesen Bibliotheken zu finden und es ist selten vorteilhaft, eine neue Implementierung zu schreiben. Eine Ausnahme ist, wenn eine hochgradig angepasste Hardwarearchitektur erforderlich ist und ein Algorithmus umfangreiche Verwendung von proprietären Erweiterungen (z. B. benutzerdefinierte Caches) durchführt. Allerdings, oft Neuerfindung des Rades verschwendet Zeit, die besser verbrachte Entwicklung und Optimierung anderer Teile der Handelsinfrastruktur sein könnte. Entwicklungszeit ist besonders im Zusammenhang mit einzelnen Entwicklern extrem kostbar. Latenz ist oft ein Problem des Ausführungssystems, da die Forschungsinstrumente üblicherweise auf derselben Maschine liegen. Für die ersteren kann Latenz an mehreren Punkten entlang des Ausführungspfades auftreten. Datenbanken müssen konsultiert werden (Disknetwork Latency), Signale müssen erzeugt werden (Betriebssystem, Kernel Messaging Latency), Handel Signale gesendet (NIC Latenz) und Aufträge verarbeitet (Exchange-Systeme interne Latenz). Für höhere Frequenzoperationen ist es notwendig, sich mit der Kernoptimierung und der Optimierung der Netzwerkübertragung vertraut zu machen. Dies ist ein tiefer Bereich und ist deutlich über den Geltungsbereich des Artikels aber wenn ein UHFT-Algorithmus gewünscht wird dann bewusst sein, die Tiefe des Wissens erforderlich Caching ist sehr nützlich im Toolkit eines quantitativen Trading-Entwickler. Das Caching bezieht sich auf das Konzept der Speicherung von Daten, auf die häufig zugegriffen wird, in einer Weise, die einen leistungsfähigeren Zugriff ermöglicht, auf Kosten einer potentiellen Verzögerung der Daten. Ein häufiger Anwendungsfall tritt bei der Webentwicklung auf, wenn Daten von einer datenträgergestützten relationalen Datenbank übernommen und in den Speicher übertragen werden. Alle nachfolgenden Anforderungen für die Daten müssen nicht auf die Datenbank getroffen werden und so Leistungssteigerungen können erheblich sein. Für Handelssituationen Caching kann sehr vorteilhaft sein. Zum Beispiel kann der gegenwärtige Zustand eines Strategieportfolios in einem Cache gespeichert werden, bis er wieder ausgeglichen wird, so dass die Liste nicht auf jeder Schleife des Handelsalgorithmus regeneriert werden muss. Eine solche Regeneration ist wahrscheinlich eine hohe CPU - oder Platten-IO-Operation. Allerdings ist das Caching nicht ohne eigene Probleme. Regeneration von Cache-Daten auf einmal, aufgrund der volatilie Natur der Cache-Speicher, kann eine erhebliche Nachfrage nach Infrastruktur. Ein weiteres Problem ist Hund-Haufen. Wo mehrere Generationen einer neuen Cache-Kopie unter extrem hoher Last durchgeführt werden, was zu einem Kaskadenausfall führt. Die dynamische Speicherzuordnung ist eine teure Operation in der Softwareausführung. Daher ist es für Hochleistungs-Handelsanwendungen unerlässlich, sich bewusst zu sein, wie Speicher während des Programmablaufs zugeteilt und freigegeben wird. Neuere Sprachstandards wie Java, C und Python führen alle automatische Garbage Collection durch. Die auf die Deallokation des dynamisch zugewiesenen Speichers verweist, wenn Objekte außerhalb des Bereichs liegen. Garbage Collection ist äußerst nützlich während der Entwicklung, da es Fehler reduziert und hilft Lesbarkeit. Es ist jedoch oftmals für bestimmte hochfrequente Handelsstrategien suboptimal. Kundenspezifische Garbage Collection ist oft für diese Fälle erwünscht. In Java, zum Beispiel durch Abstimmung der Garbage Collector und Heap-Konfiguration, ist es möglich, eine hohe Leistung für HFT-Strategien zu erhalten. C stellt keinen nativen Garbage Collector zur Verfügung und daher ist es notwendig, alle Speicherzuweisungen als Teil einer Objektimplementierung zu behandeln. Während potenziell fehleranfällig (potenziell dazu führen, dass baumelnde Zeiger) ist es äußerst nützlich, feinkörnige Kontrolle, wie Objekte auf dem Heap für bestimmte Anwendungen erscheinen. Bei der Auswahl einer Sprache stellen Sie sicher zu studieren, wie die Garbage Collector arbeitet und ob es geändert werden, um für einen bestimmten Anwendungsfall optimieren. Viele Operationen in algorithmischen Handelssystemen sind parallelisierbar. Dies bezieht sich auf das Konzept, mehrere programmatische Operationen gleichzeitig, d. H. Parallel, auszuführen. So genannte embarassingly parallele Algorithmen beinhalten Schritte, die völlig unabhängig von anderen Schritten berechnet werden können. Bestimmte statistische Operationen, wie Monte Carlo Simulationen, sind ein gutes Beispiel für peinlich parallele Algorithmen, da jede zufällige Zeichnung und nachfolgende Pfadoperation ohne Kenntnis anderer Pfade berechnet werden kann. Andere Algorithmen sind nur teilweise parallelisierbar. Fluiddynamische Simulationen sind ein solches Beispiel, bei dem die Berechnungsdomäne unterteilt werden kann, aber letztlich müssen diese Domänen miteinander kommunizieren und somit sind die Operationen teilweise sequentiell. Parallelisierbare Algorithmen unterliegen dem Amdahls-Gesetz. Was eine theoretische Obergrenze für die Leistungserhöhung eines parallelisierten Algorithmus ergibt, wenn er N-unabhängigen Prozessen unterworfen wird (z. B. auf einem CPU-Kern oder Thread). Die Parallelisierung ist zunehmend wichtiger als Optimierungsmittel, da die Prozessortaktgeschwindigkeiten stagniert haben, da neuere Prozessoren viele Kerne enthalten, mit denen parallele Berechnungen durchgeführt werden können. Der Anstieg der Consumer-Grafikhardware (vorwiegend für Videospiele) hat zur Entwicklung von Graphical Processing Units (GPUs) geführt, die Hunderte von Cores für sehr gleichzeitige Operationen enthalten. Solche GPUs sind jetzt sehr erschwinglich. High-Level-Frameworks, wie Nvidias CUDA haben zu weit verbreiteten Akzeptanz in der Wissenschaft und Finanzen geführt. Solche GPU-Hardware ist im Allgemeinen nur für den Forschungsaspekt der quantitativen Finanzierung geeignet, während für (U) HFT weitere spezialisierte Hardware (einschließlich Field-Programmable Gate Arrays - FPGAs) verwendet werden. Heutzutage unterstützen die meisten modernen Sprachen ein Maß an Gleichzeitigkeitmultithreading. Somit ist es einfach, einen Backtester zu optimieren, da alle Berechnungen im allgemeinen unabhängig von den anderen sind. Die Skalierung von Software-Engineering und - Operationen bezieht sich auf die Fähigkeit des Systems, konsequent ansteigende Lasten in Form größerer Anforderungen, höherer Prozessorauslastung und mehr Speicherzuteilung zu handhaben. Im algorithmischen Handel kann eine Strategie skaliert werden, wenn sie größere Kapitalmengen akzeptieren kann und immer noch konsistente Renditen liefert. Der Handelstechnologie-Stack skaliert, wenn er größere Handelsvolumina und eine erhöhte Latenzzeit ohne Engpassierung aushalten kann. Während Systeme skaliert werden müssen, ist es oft schwer vorherzusagen, wo ein Engpass auftritt. Rigourous Logging, Testing, Profiling und Monitoring wird erheblich dazu beitragen, ein System skalieren. Languages themselves are often described as unscalable. This is usually the result of misinformation, rather than hard fact. It is the total technology stack that should be ascertained for scalability, not the language. Clearly certain languages have greater performance than others in particular use cases, but one language is never better than another in every sense. One means of managing scale is to separate concerns, as stated above. In order to further introduce the ability to handle spikes in the system (i. e. sudden volatility which triggers a raft of trades), it is useful to create a message queuing architecture. This simply means placing a message queue system between components so that orders are stacked up if a certain component is unable to process many requests. Rather than requests being lost they are simply kept in a stack until the message is handled. This is particularly useful for sending trades to an execution engine. If the engine is suffering under heavy latency then it will back up trades. A queue between the trade signal generator and the execution API will alleviate this issue at the expense of potential trade slippage. A well-respected open source message queue broker is RabbitMQ . Hardware and Operating Systems The hardware running your strategy can have a significant impact on the profitability of your algorithm. This is not an issue restricted to high frequency traders either. A poor choice in hardware and operating system can lead to a machine crash or reboot at the most inopportune moment. Thus it is necessary to consider where your application will reside. The choice is generally between a personal desktop machine, a remote server, a cloud provider or an exchange co-located server. Desktop machines are simple to install and administer, especially with newer user friendly operating systems such as Windows 78, Mac OSX and Ubuntu. Desktop systems do possess some significant drawbacks, however. The foremost is that the versions of operating systems designed for desktop machines are likely to require rebootspatching (and often at the worst of times). They also use up more computational resources by the virtue of requiring a graphical user interface (GUI). Utilising hardware in a home (or local office) environment can lead to internet connectivity and power uptime problems. The main benefit of a desktop system is that significant computational horsepower can be purchased for the fraction of the cost of a remote dedicated server (or cloud based system) of comparable speed. A dedicated server or cloud-based machine, while often more expensive than a desktop option, allows for more significant redundancy infrastructure, such as automated data backups, the ability to more straightforwardly ensure uptime and remote monitoring. They are harder to administer since they require the ability to use remote login capabilities of the operating system. In Windows this is generally via the GUI Remote Desktop Protocol (RDP). In Unix-based systems the command-line Secure SHell (SSH) is used. Unix-based server infrastructure is almost always command-line based which immediately renders GUI-based programming tools (such as MatLab or Excel) to be unusable. A co-located server, as the phrase is used in the capital markets, is simply a dedicated server that resides within an exchange in order to reduce latency of the trading algorithm. This is absolutely necessary for certain high frequency trading strategies, which rely on low latency in order to generate alpha. The final aspect to hardware choice and the choice of programming language is platform-independence. Is there a need for the code to run across multiple different operating systems Is the code designed to be run on a particular type of processor architecture, such as the Intel x86x64 or will it be possible to execute on RISC processors such as those manufactured by ARM These issues will be highly dependent upon the frequency and type of strategy being implemented. Resilience and Testing One of the best ways to lose a lot of money on algorithmic trading is to create a system with no resiliency . This refers to the durability of the sytem when subject to rare events, such as brokerage bankruptcies, sudden excess volatility, region-wide downtime for a cloud server provider or the accidental deletion of an entire trading database. Years of profits can be eliminated within seconds with a poorly-designed architecture. It is absolutely essential to consider issues such as debuggng, testing, logging, backups, high-availability and monitoring as core components of your system. It is likely that in any reasonably complicated custom quantitative trading application at least 50 of development time will be spent on debugging, testing and maintenance. Nearly all programming languages either ship with an associated debugger or possess well-respected third-party alternatives. In essence, a debugger allows execution of a program with insertion of arbitrary break points in the code path, which temporarily halt execution in order to investigate the state of the system. The main benefit of debugging is that it is possible to investigate the behaviour of code prior to a known crash point . Debugging is an essential component in the toolbox for analysing programming errors. However, they are more widely used in compiled languages such as C or Java, as interpreted languages such as Python are often easier to debug due to fewer LOC and less verbose statements. Despite this tendency Python does ship with the pdb. which is a sophisticated debugging tool. The Microsoft Visual C IDE possesses extensive GUI debugging utilities, while for the command line Linux C programmer, the gdb debugger exists. Testing in software development refers to the process of applying known parameters and results to specific functions, methods and objects within a codebase, in order to simulate behaviour and evaluate multiple code-paths, helping to ensure that a system behaves as it should. A more recent paradigm is known as Test Driven Development (TDD), where test code is developed against a specified interface with no implementation. Prior to the completion of the actual codebase all tests will fail. As code is written to fill in the blanks, the tests will eventually all pass, at which point development should cease. TDD requires extensive upfront specification design as well as a healthy degree of discipline in order to carry out successfully. In C, Boost provides a unit testing framework. In Java, the JUnit library exists to fulfill the same purpose. Python also has the unittest module as part of the standard library. Many other languages possess unit testing frameworks and often there are multiple options. In a production environment, sophisticated logging is absolutely essential. Logging refers to the process of outputting messages, with various degrees of severity, regarding execution behaviour of a system to a flat file or database. Logs are a first line of attack when hunting for unexpected program runtime behaviour. Unfortunately the shortcomings of a logging system tend only to be discovered after the fact As with backups discussed below, a logging system should be given due consideration BEFORE a system is designed. Both Microsoft Windows and Linux come with extensive system logging capability and programming languages tend to ship with standard logging libraries that cover most use cases. It is often wise to centralise logging information in order to analyse it at a later date, since it can often lead to ideas about improving performance or error reduction, which will almost certainly have a positive impact on your trading returns. While logging of a system will provide information about what has transpired in the past, monitoring of an application will provide insight into what is happening right now . All aspects of the system should be considered for monitoring. System level metrics such as disk usage, available memory, network bandwidth and CPU usage provide basic load information. Trading metrics such as abnormal pricesvolume, sudden rapid drawdowns and account exposure for different sectorsmarkets should also be continuously monitored. Further, a threshold system should be instigated that provides notification when certain metrics are breached, elevating the notification method (email, SMS, automated phone call) depending upon the severity of the metric. System monitoring is often the domain of the system administrator or operations manager. However, as a sole trading developer, these metrics must be established as part of the larger design. Many solutions for monitoring exist: proprietary, hosted and open source, which allow extensive customisation of metrics for a particular use case. Backups and high availability should be prime concerns of a trading system. Consider the following two questions: 1) If an entire production database of market data and trading history was deleted (without backups) how would the research and execution algorithm be affected 2) If the trading system suffers an outage for an extended period (with open positions) how would account equity and ongoing profitability be affected The answers to both of these questions are often sobering It is imperative to put in place a system for backing up data and also for testing the restoration of such data. Many individuals do not test a restore strategy. If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment Similarly, high availability needs to be baked in from the start. Redundant infrastructure (even at additional expense) must always be considered, as the cost of downtime is likely to far outweigh the ongoing maintenance cost of such systems. I wont delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system. Choosing a Language Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system. The next stage is to discuss how programming languages are generally categorised. Type Systems When choosing a language for a trading stack it is necessary to consider the type system . The languages which are of interest for algorithmic trading are either statically - or dynamically-typed . A statically-typed language performs checks of the types (e. g. integers, floats, custom classes etc) during the compilation process. Such languages include C and Java. A dynamically-typed language performs the majority of its type-checking at runtime. Such languages include Python, Perl and JavaScript. For a highly numerical system such as an algorithmic trading engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors. However, type-checking doesnt catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations. Dynamic languages (i. e. those that are dynamically-typed) can often lead to run-time errors that would otherwise be caught with a compilation-time type-check. For this reason, the concept of TDD (see above) and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone. Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type (and thus memory requirements) are known at compile-time. In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-inspected at run-time and this carries a performance hit. Libraries for dynamic languages, such as NumPySciPy alleviate this issue due to enforcing a type within arrays. Open Source or Proprietary One of the biggest choices available to an algorithmic trading developer is whether to use proprietary (commercial) or open source technologies. There are advantages and disadvantages to both approaches. It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensingmaintenance costs. The Microsoft. NET stack (including Visual C, Visual C) and MathWorks MatLab are two of the larger proprietary choices for developing custom algorithmic trading software. Both tools have had significant battle testing in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds. Microsoft and MathWorks both provide extensive high quality documentation for their products. Further, the communities surrounding each tool are very large with active web forums for both. The. NET software allows cohesive integration with multiple languages such as C, C and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ. MatLab also has many pluginslibraries (some free, some commercial) for nearly any quantitative research domain. There are also drawbacks. With either piece of software the costs are not insignificant for a lone trader (although Microsoft does provide entry-level version of Visual Studio for free). Microsoft tools play well with each other, but integrate less well with external code. Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned. MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading. The main issue with proprietary products is the lack of availability of the source code. This means that if ultra performance is truly required, both of these tools will be far less attractive. Open source tools have been industry grade for sometime. Much of the alternative asset space makes extensive use of open-source Linux, MySQLPostgreSQL, Python, R, C and Java in high-performance production roles. However, they are far from restricted to this domain. Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats. The main benefit of using interpreted languages is the speed of development time. Python and R require far fewer lines of code (LOC) to achieve similar functionality, principally due to the extensive libraries. Further, they often allow interactive console based development, rapidly reducing the iterative development process. Given that time as a developer is extremely valuable, and execution speed often less so (unless in the HFT space), it is worth giving extensive consideration to an open source technology stack. Python and R possess significant development communities and are extremely well supported, due to their popularity. Documentation is excellent and bugs (at least for core libraries) remain scarce. Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces. A typical Linux server (such as Ubuntu) will often be fully command-line oriented. In addition, Python and R can be slow for certain execution tasks. There are mechanisms for integrating with C in order to improve execution speeds, but it requires some experience in multi-language programming. While proprietary software is not immune from dependencyversioning issues it is far less common to have to deal with incorrect library versions in such environments. Open source operating systems such as Linux can be trickier to administer. I will venture my personal opinion here and state that I build all of my trading tools with open source technologies. In particular I use: Ubuntu, MySQL, Python, C and R. The maturity, community size, ability to dig deep if problems occur and lower total cost ownership (TCO) far outweigh the simplicity of proprietary GUIs and easier installations. Having said that, Microsoft Visual Studio (especially for C) is a fantastic Integrated Development Environment (IDE) which I would also highly recommend. Batteries Included The header of this section refers to the out of the box capabilities of the language - what libraries does it contain and how good are they This is where mature languages have an advantage over newer variants. C, Java and Python all now possess extensive libraries for network programming, HTTP, operating system interaction, GUIs, regular expressions (regex), iteration and basic algorithms. C is famed for its Standard Template Library (STL) which contains a wealth of high performance data structures and algorithms for free. Python is known for being able to communicate with nearly any other type of systemprotocol (especially the web), mostly through its own standard library. R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code (which can be found in portfolio optimisation and derivatives pricing, for instance). Outside of the standard libraries, C makes use of the Boost library, which fills in the missing parts of the standard library. In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C11 spec, including native support for lambda expressions and concurrency. Python has the high performance NumPySciPyPandas data analysis library combination, which has gained widespread acceptance for algorithmic trading research. Further, high-performance plugins exist for access to the main relational databases, such as MySQL (MySQLC), JDBC (JavaMatLab), MySQLdb (MySQLPython) and psychopg2 (PostgreSQLPython). Python can even communicate with R via the RPy plugin An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API. Most APIs natively support C and Java, but some also support C and Python, either directly or with community-provided wrapper code to the C APIs. In particular, Interactive Brokers can be connected to via the IBPy plugin. If high-performance is required, brokerages will support the FIX protocol . Conclusion As is now evident, the choice of programming language(s) for an algorithmic trading system is not straightforward and requires deep thought. The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries. The benefit of a separated architecture is that it allows languages to be plugged in for different aspects of a trading stack, as and when requirements change. A trading system is an evolving tool and it is likely that any language choices will evolve along with it. There are actually only 3 major blocks in an Algo Trading System. 1. Market Data Handler (z. B. FAST-Handler) 2. Strategie-Modul (z. B. crossOver-Strategie) 3. Order Router (z. B. FIX Router) können Sie Risikotests entweder am Strategy Module oder dem Order Router Module oder beides hinzufügen. So lange Ihr Datenfluss ist korrekt, sollten Sie gut zu gehen. Denken Sie daran, dass Sie ein ATS für minimale Latenz entwickeln, und das Hinzufügen von mehr Ebenen oder Komplexität wird auf Kosten der Latenz kommen. Minimal ATS-Architektur Und wenn Sie die Glocken und Pfeifen hinzufügen, würde es wie die folgenden aussehen: Wenn Sie auch an der Nitty-Gritty der Umsetzung der oben genannten Architektur interessiert sind, sollten Sie die folgenden Dinge im Auge behalten. Vermeiden Sie locksmutexes. Wenn Sie es verwenden müssen, versuchen Sie es durch lockless Strukturen mit Atomkernen ersetzen. Es gibt mehrere Bibliotheken für locklose Datenstrukturen (z. B. libcds, Concurrency-Kit usw.). C-11 unterstützt std :: atomar. Und Sie sollten danach streben, sie zu benutzen. Vermeiden Sie, was in QuickFIX getan wird. Seine geschrieben für Sicherheitselektivität Wiederverwendbarkeit als Objekt (Lock) Erstellung und Vernichtung wird für jeden Aufruf einer Nachricht an den Router durchgeführt. Sicherlich keine Möglichkeit, eine Latenz sensible Code schreiben. Keine Laufzeitspeicherbelegung. Laufzeitpfad sollte maßgeschneiderte und sperrenfreie Speicherverwaltung mit vorab zugewiesenem Speicherpool verwenden. Die gesamte Initialisierung kann in Konstruktoren durchgeführt werden. Feste Verbindung. Threading-Modell, IO-Modell und Speicher-Management sollte so konzipiert, zusammen zu arbeiten, um eine optimale Gesamtleistung zu erzielen. Dies geht gegen das OOP-Konzept der losen Kopplung, aber es ist notwendig, um Laufzeitkosten des dynamischen Polymorphismus zu vermeiden. Verwenden Sie Vorlagen. In der gleichen Vene, würde ich auch vorschlagen, dass Sie auf C-Templatierung, um Flexibilität des Codes zu erreichen. OSHardware-Optimierung: Schließlich sollten Sie mit Linux RT Kernel und Solarflare Netzwerkkarte mit OpenOnLoad Treiber für die Erreichung minimale Latenz arbeiten. Können Sie weiter schauen, um die CPU zu isolieren und führen Sie Ihr Programm auf, dass bestimmte Kern. Und schließlich die öffentliche API, die Sie benötigen, um strategischen Entwicklern auszusetzen. Ich möchte, dass dies die minimale Menge, die die gesamte Komplexität dieser bestimmten Austauschstation verkapseln würde. Class OrderRowOrd (OrderInfo) 0 virtual bool sendRplOrd (OrderInfo) 0 virtuelles bool sendCxlOrd (OrderInfo) 0 virtualBut bedeutet dies, dass die OrderInfo-Klasse ALLE Angaben benötigen, die für den destinationexchange erforderlich sind. In der Regel erfordert der Austausch die gleiche Art von Informationen, aber wie Sie entlang gehen und unterstützen mehr AustauscheDestinationen würden Sie sich hinzufügen, mehr Variablen in dieser Klasse. Im Folgenden sind die wichtigen Fragen, die Sie sich stellen müssen: 1. Multi-Prozess-Architektur oder Multi-Thread-Architektur. Ob ein monolithischer Prozess mit mehreren Threads zu bauen, oder schreiben Sie mehrere Prozesse. Die Kosten für mehrere Prozesse ist die Nachricht übergeben Latenz, während die Kosten für mehrere threaded einzigen Prozess ist, dass jeder Fehler kann das gesamte System zu senken. 2. Nachrichtenübergabe: Während Sie aus einer Vielzahl von Optionen wählen können, sind Sie durch Latenzbetrachtung eingeschränkt. Am schnellsten IPC wäre Shared Memory, aber dann, wie würden Sie tun, die Synchronisation verbringen einige Zeit mit diesen beiden Fragen, weil sie den Baustein, auf dem Ihre Architektur steht. Bearbeiten: FIX und FAST Bezüglich populäres Standardprotokoll ist FIX zum Senden von Aufträgen und FAST für Marktdaten. Having said, dass die meisten Börsen haben ihre eigene native Protokoll, das schneller als FIX ist, weil FIX ist in der Regel auf der Oberseite ihres nativen Protokolls implementiert. Aber sie unterstützen immer noch FIX erhöht die Geschwindigkeit der Bereitstellung. Auf der anderen Seite, während FIX von den meisten Börsen übernommen wird, genießt FAST nicht so viel Akzeptanz. Wenn überhaupt, würde es nur eine Handvoll Austausch geben. Die meisten von ihnen senden entweder über FIX selbst (niedrige Latenzzeit) oder verwenden Sie ihre eigenen nativen binären Protokoll. z. B. In Indien, NSE, BSE und MCXMCXSX, alle drei Börsen gibt Ihnen FIX-Protokoll zusätzlich zu nativen Protokoll, aber nur BSE gibt Ihnen FAST für Marktdaten. Und das ist auch von FAST auf native mit Einführung von EOBI. Können Sie die gleiche Sache an andere Börsen extrapolieren. 3.6k Views middot View Upvotes middot Nicht für Fortpflanzung Wie John erwähnt, ist OMS der Crux von jeder Handelsplattform und Sie sollten von der Erforschung beginnen. Sie müssen Zeit verbringen, um Ihre Handelslebenszyklus, Ereignisse und Eigenschaften zu bestimmen, die Sie auf dem OMS einbetten möchten und die, die Sie Ihre Algo-Maschine behandeln möchten. Metcetera bietet eine Open-Source-OMS, ich haven039t verwendet es persönlich aber it039s einer der wenigen auf dem Markt. Die nächste Sache, die Sie betrachten sollte, ist die Bereitstellung einer Schnittstelle zu Quelldaten in und schieben Sie es aus. Dies ist für ein Kundenauftragseingabesystem, zum der Auftragsdetails zu werfen und Algo-Maschine, um sie zu liefern. Viele Sell Side OMS039s verwenden eine Kombination von proprietären Programmen in JavaC mit FIX geschrieben. FIX-Protokoll ermöglicht es Ihnen, Echtzeit über Systeme in einem vereinfachten amp-vordefinierten Nachrichtenformat zu kommunizieren, das von der FIX-Protokollgemeinschaft festgelegt wird. Gehen Sie zu der FIX-Protokoll-Organisation gt Homepage, um mehr darüber zu lesen. Betrachtet auch Open Source FIX Engine. Eine Open-Source-Implementierung der FIX-Engine. Als nächstes kommt eine Marktdaten-Schnittstelle, um Echtzeit-Zeitsicherheits-Marktinformationen zu liefern, Daten, die von HighLowOpenClose zu Best BidBest Ask, Total gehandeltes Volumen, Letzter Preis, Letztes Volumen, Bid-Anführungszeichen, Ask-Anführungszeichen usw. reichen Strategie, die Sie implementieren möchten. Ich glaube, Interactive Broker bietet einen Echtzeit-Daten-Feed über FIX. Exchange-Konnektivität ist als nächstes, wo Ihr Algo interpretiert die Signale, erstellen Sie eine Bestellung und Routen zu einem Exchange oder ECN. Entwickeln sie im eigenen Haus könnte hart sein, wie Sie benötigen, um auszutauschen Exchange-Mitgliedschaft, zertifizieren Sie Ihre Plattform und zahlen einen regulären Mitgliedsbeitrag. Ein billiger Weg ist, eine Broker-API (wie IB) zu verwenden und Route der Reihenfolge durch sie. Historische Daten sind ebenso von wesentlicher Bedeutung, wie man das aktuelle Marktverhalten mit seinen historischen Werten vergleichen möchte. Parameter wie durchschnittlicher Spread, VWAP-Profile, durchschnittliches Tagesvolumen usw. können erforderlich sein, um die Entscheidungsfindung zu beeinflussen. Sie können es auf Datenbank (bevorzugt), aber wenn Geschwindigkeit der Essenz dann laden Sie es auf dem Server-Cache, wenn Sie Ihr Programm beginnen. Sobald Ihre Peripherie-Systeme eingerichtet sind, können Sie die Entwicklung Ihrer Algo-Programm, wie Sie es funktionieren wollen. Diese grundlegende Infrastruktur ermöglicht es Ihnen, einen übergeordneten Algo-Auftrag einzugeben, Marktdaten zu lesen, auf die Signale zu reagieren, aber untergeordnete Aufträge zu generieren und sie auf das Austauschauftragsbuch und die historischen Daten zu setzen, um die Entscheidungsfindung zu beeinflussen. Das OMS hält die Verknüpfung zwischen der übergeordneten Amp-Kinderreihenfolge, deren Echtzeitstatus und Aktualisierungen durch die Algo - oder Exchange-Konnektivitätsplattform. Was Sie innerhalb des Algo umsetzen wollen, ist ganz bei Ihnen. 2.1k Views middot View Upvotes middot Not for Reproduction


No comments:

Post a Comment