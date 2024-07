Les postes de développeurs C++ pour les établissements de trading haute fréquence (HFT) et les hedge funds peuvent être très bien rémunérés. Il y a quelques années, les chasseurs de têtes estimaient la rémunération totale (salaire + bonus) de ces postes à plus de 600k $dollars, soit plus de 550k euros. Mais la simple connaissance de C++ ne suffit pas. Le langage est toujours relativement rapide, mais pour les applications de trading à faible latence, il faut savoir le rendre vraiment rapide.

Pour Paul Bilokon, ancien director chez Deutsche Bank, professeur associé d’Imperial College à Londres et conseiller scientifique principal chez Thalesians Marine Ltd, si vous visez un poste de développeur C++ essentiel dans une équipe HFT, la connaissance de C++ à faible latence est généralement un prérequis. Il précise par ailleurs que si certains établissements utilisent des FPGA programmables pour atteindre une ultra-faible latence, ce peut être compliqué : il est en effet nécessaire d’avoir des connaissances spécialisées en matériel et dans des langages comme Lucid, VHDL et Verilog. "À moins que l’établissement ne soit prêt à investir dans les FPGA à long terme (en termes de recherche et développement comme de support continu), il est probablement sage de tirer le maximum de la faible latence du C++", nous confie-t-il.

Pourtant, il peut s’avérer difficile de trouver des informations sur C++ à faible latence. Un article* publié l'an dernier par Paul Bilokon et l’un de ses étudiants en doctorat passe au crible 12 techniques visant à réduire la latence du code C++, et voici lesquelles :

Programmation sans verrouillage : paradigme de programmation concurrente impliquant des algorithmes multithreads qui, contrairement à leurs homologues classiques, n'utilisent pas de mécanismes d'exclusion mutuelle, tels que les verrouillages, pour arbitrer l'accès aux ressources partagées. SIMD (Single Instructions Multiple Data) : instructions qui tirent parti de la puissance de traitement parallèle des processeurs actuels, permettant l'exécution simultanée de plusieurs opérations. Mélange des types de données : lorsqu'un calcul implique des types floats et doubles, des conversions implicites sont nécessaires. Si seuls des calculs en float sont utilisés, la performance s'améliore. Signé vs non signé : assurer la cohérence de la signedness dans les comparaisons pour éviter les conversions. Pré-extraction : chargement explicite des données dans le cache en amont, afin de réduire les délais de récupération des données, en particulier dans les applications liées à la mémoire. Réduction des branches : prédiction des résultats des branches conditionnelles pour permettre l'exécution spéculative du code. Élimination des slow paths : éviter au maximum les séquences d’instructions de code rarement exécutées. Court-circuitage : les expressions logiques cessent leur évaluation lorsque le résultat final est déterminé. Inlining : incorporation du corps d'une fonction à chaque point où celle-ci est appelée, réduisant ainsi le temps perdu à l'appel de fonction et permettant une optimisation supplémentaire par le compilateur. Contexpr : les calculs marqués constexpr sont évalués à la compilation, permettant le constant folding et une exécution de code efficace en éliminant les calculs à l'exécution. Dispatch à la compilation : techniques telles que la spécialisation de template ou la surcharge de fonction, afin que les chemins de code optimisés soient choisis à la compilation en fonction du type ou de la valeur, évitant le dispatch à l'exécution et permettant des décisions d'optimisation précoces. Réchauffement du cache : pour minimiser le temps d'accès à la mémoire et améliorer la réactivité du programme, les données sont préchargées dans le cache du processeur avant utilisation.

Source : conception de modèles C++ pour les applications à faible latence, donc le trading haute fréquence

L'efficacité de ces techniques est démontrée par le graphique ci-dessus. Alors que le réchauffement du cache et le constexpr sont susceptibles d’améliorer l’efficacité de 90 %, l’amélioration n’est que de 12,5 % avec l’utilisation de comparaisons signées.

Si la thématique vous intéresse, Paul Bilokon suggère également de regarder la vidéo de la conférence de Carl Cook et Nimrod Sapir en 2019 chez QSpark, un fournisseur de plateformes de trading à faible latence, disponible ici :

* conception de modèles C++ pour les applications à faible latence, donc le trading haute fréquence. GitHub : GitHub - 0burak/imperial_hft. Bilokon's academic papers