Nouvelles données, nouvelles méthodes : le séminaire consacré à l’investissement quantitatif – 1ère partie

Post with image

Lors d’un séminaire majeur au Royaume-Uni, des universitaires ont livré leurs dernières réflexions sur les avantages – et les dangers – que présente le recours aux nouvelles techniques telles que l’apprentissage automatique, l’intelligence artificielle et l’analyse de texte pour accroître la performance des investissements

  • Apprentissage automatique – il est utile pour le marché des changes et celui des matières premières et pour identifier des profils dans les classes d’actifs faisant l’objet de moindres investissements
  • Contrôle a posteriori – à l’ère de l’apprentissage automatique, il doit être rigoureux, précis et scientifique
  • Textes financiers – quelle valeur ajoutée leur fouille apporte-t-elle ?

Un large éventail de questions d’actualité liées à l’investissement ont été examinées au cours des présentations et débats du récent séminaire organisé conjointement par Inquire Europe et Inquire UK au printemps 2019 à Windsor (Royaume-Uni).

Apprentissage automatique et intelligence artificielle

Sandy Rattray, CIO de Man Group, estime que, malgré le vif engouement suscité par l’apprentissage automatique et l’intelligence artificielle en 2018, les techniques d’apprentissage automatique ne sont pas particulièrement utiles pour prévoir le rendement des actifs à un horizon de six mois ou plus.

Il considère qu’elles ont leur utilité dans le domaine du trading, en particulier en ce qui concerne les marchés des changes, où Man Group collecte massivement des données, et les marchés des matières premières. Il pense aussi qu’elles sont utiles pour fouiller des textes et identifier des profils dans les classes d’actifs moins exploitées.

Concernant les nouvelles tendances en matière d’investissement quantitatif, Sandy a déclaré que les approches multifactorielles en matière de crédit méritent l’attention. D’après lui, l’interaction entre les gérants quantitatifs et les gérants fondamentaux doit être renforcée, mais il sait que le manque de compétences de certains gérants fondamentaux en matière d’investissement quantitatif constitue un obstacle qu’il faudra surmonter. Le fait qu’il est difficile aux gérants quantitatifs de gérer des portefeuilles concentrés ne facilite pas non plus la tâche à cet égard.

S’agissant des nouvelles données, Sandy constate que bien des personnes créent de nouvelles bases de données à l’intention des gérants fondamentaux. Il s’interroge toutefois sur l’intérêt de ces bases de données, en particulier compte tenu de leur coût (souvent élevé) et de la tendance à la baisse des commissions de gestion, même s’il ne pense assurément pas que les budgets consacrés aux données sont appelés à diminuer.

Quant à l’investissement de long terme, Sandy estime que les facteurs apportant une valeur ajoutée sont rares. Il conseille aux investisseurs de s’en tenir à ceux qu’ils connaissent déjà.

Un protocole de contrôle a posteriori à l’ère de l’apprentissage automatique

Campbell Harvey, de la Duke’s Fuqua School of Business, a présenté l’article qu’il a récemment rédigé en collaboration avec Harry Markowitz et Rob Arnott, A Backtesting Protocol in The Era Of Machine Learning. Après avoir fourni maints exemples des dangers d’une application aveugle des techniques d’apprentissage automatique à la prévision des rendements des actifs, Campbell a exposé les principales recommandations formulées dans cet article.

Premièrement, il ne faut pas pratiquer le HARKing (Hypothesizing After the Results are Known). Un facteur extrait de données doit être traité avec nettement plus de scepticisme qu’un facteur issu d’une théorie économique.

Deuxièmement, il faut être attentif à ce que l’on appelle le problème des comparaisons multiples, c’est-à-dire le fait que, lorsque l’on teste une hypothèse, le risque d’obtenir des faux positifs est faible, alors que, lorsque l’on réalise des milliers de tests, chose courante en apprentissage automatique, le nombre des faux positifs s’accroît de façon spectaculaire. Les chercheurs ne doivent pas s’arrêter de chercher dès qu’ils ont trouvé un bon modèle. Toutes les variables définies dans le programme de recherche doivent être étudiées.

Troisièmement, il faut veiller à l’intégrité des données, à la mesure dans laquelle l’exclusion d’observations aberrantes et la transformation des données ont été prédéfinies et ont du sens, et à la mesure dans laquelle les résultats résistent à des transformations mineures.

Quatrièmement, il faut être honnête en matière de validation croisée – s’abstenir de modifier ultérieurement le modèle d’un échantillon pour l’appliquer à des données hors échantillon et s’assurer que l’analyse hors échantillon est représentative du trading en direct et que des coûts de transaction réalistes ont été pris en considération.

Cinquièmement, il faut être attentif à la dynamique du modèle – s’assurer que le modèle résiste à des changements structurels et que des mesures ont été prises pour réduire au minimum le surdimensionnement de la dynamique du modèle, une modification du live model et le risque de saturation.

Sixièmement, il faut faire simple – autrement dit, conjurer la malédiction de la dimensionnalité, en veillant à ce que les spécifications du modèle soient réalistes et les plus simples possible et à ce que les résultats de l’apprentissage automatique puissent être interprétés et non faire office de « boîte noire ». La régularisation, à savoir l’introduction de contraintes permettant de simplifier le modèle pour éviter le surdimensionnement, constitue une bonne pratique.

Septième et dernier point, il faut avoir une culture de la recherche scientifique, c’est-à-dire récompenser la qualité et pas seulement la découverte d’une bonne méthode de contrôle a posteriori d’une stratégie.

Une bonne illustration des dangereuses conséquences d’une violation de ces principes en cas de surdimensionnement est fournie par une stratégie consistant à investir dans un portefeuille équipondéré en actions dont la troisième lettre du code mnémotechnique est « S » et à avoir des positions courtes dans un portefeuille équipondéré en actions dont la troisième lettre du code mnémotechnique est « U ». Cette stratégie, citée dans leur article, a été trouvée après avoir essayé des milliers de combinaisons. Elle aurait généré un rendement ajusté des risques particulièrement élevé si elle avait été appliquée entre janvier 1963 et décembre 2015, même durant la crise financière mondiale de 2008, aux actions d’entreprises américaines réalisant un chiffre d’affaires inférieur à 10 % par an.

Quelle est la valeur ajoutée des données non structurées ?

Steven Young, de l’Université Lancaster a donné un tutoriel sur l’intérêt des données non structurées dans le domaine de l’investissement. L’utilisation et la modélisation de textes répondent à une motivation simple : de nombreux faits ne peuvent se résumer à des chiffres et un texte exprime mieux les nuances.

Son objectif était de proposer un cadre pour exploiter les textes financiers et réfléchir aux sources de valeur qu’ils contiennent. À l’évidence, avant même de commencer, les chercheurs devaient s’interroger sur les avantages comparatifs de leur recherche. Le fait que l’on trouve des packages de fouille de texte dans, par exemple, R, Python ou SAS signifie que les résultats à portée de main ont déjà été trouvés, collectés et exploités.

Par exemple, en ce qui concerne l’analyse du texte des formulaires 10-K et 10-Q à remplir par les entreprises américaines, plus de 60 études ont été produites. Une fois que la valeur ajoutée du projet apparaît clairement, Steve propose un cadre en quatre étapes :

  1. création d’un corpus, étape correspondant à la définition du problème
  2. nettoyage et prétraitement
  3. annotation
  4. traitement, étape correspondant à la recherche de sens.

En ce qui concerne la création d’un corpus, les trois grands types de contenu textuel lié à la finance sont les suivants :

  1. forums, blogs et wikis
  2. presse et rapports de recherche
  3. contenu généré par les entreprises.

Analyser plusieurs types de contenu pour avoir des points de vue différents et trianguler les résultats sera vraisemblablement encore plus profitable. Il importe aussi de décider si l’on utilise le texte dans son intégralité ou seulement en partie. Il est possible de tirer des conclusions plus précises en se concentrant sur des sections particulières. Ensuite, il faut exploiter les données textuelles, les nettoyer et les prétraiter en supprimant le contenu indésirable et en transformant le texte non structuré pertinent en texte structuré ou en données chiffrées placés dans des tableaux.

L’objectif consiste à construire une matrice terme-document, ce que l’on appelle une TDM. Le prétraitement peut aussi comprendre la suppression de la ponctuation et des chiffres, la suppression des mots vides, la recherche de radical et la désambiguïsation. L’annotation peut être manuelle ou automatique et est indispensable à la désambiguïsation et à l’extraction des caractéristiques.

Le marquage manuel est probablement plus subjectif, mais il peut jouer un rôle important dans la formation aux applications Big Text. Le marquage automatique, quant à lui, peut utiliser diverses sources disponibles pour Part-Of-Speech (POS), la morphologie, la grammaire et la syntaxe, la sémantique et l’annotation pragmatique.

Enfin, le traitement peut reposer sur le simple comptage du nombre d’occurrences des mots en utilisant des dictionnaires généraux comme DICTION, General Inquirer et LIWC, ou sur des méthodes plus sophistiquées basées sur des lexiques spécialisés par domaine comme Netlingo ou Provalis.

Le traitement peut être affiné de nombreuses façons. Par exemple, on peut recourir à la catégorisation ou étudier l’influence, les mots sur lesquels il est insisté, la spécificité, la similarité, l’obfuscation et les fausses informations. Une autre possibilité souvent exploitée est la pondération, qui consiste à accorder plus d’importance à un mot inhabituel ou à des mots plus étroitement liés à la construction sous-jacente.

Les études sur l’utilité de l’analyse de textes en matière d’investissement sont de plus en plus nombreuses. Outre le sentiment des entreprises, les facteurs permettant d’identifier les risques aux niveaux de l’entreprise et du gérant sont notamment la fraude et les fausses déclarations, les traits de personnalité du CEO, le risque politique idiosyncrasique, l’exposition géographique des entreprises et les contraintes financières.

Selon Steven, la fouille automatique de textes est un outil d’une importance croissante pour l’investissement quantitatif.


Pour lire plus d’articles de Raul Leote de Carvalho, cliquez ici >

Pour lire plus sur la finance quantitative, cliquez ici >

Raul Leote de Carvalho

Deputy Head of Quant Research Group

Laisser un commentaire

Your email adress will not be published. Required fields are marked*