Post-Doc : Etude et évaluation d'algorithmes d'apprentissage machine ubiquitaire pour du Big Data massivement distribué F/H

Titre de l'offre: Post-Doc : Etude et évaluation d'algorithmes d'apprentissage machine ubiquitaire pour du Big Data massivement distribué F/H

Effectuer un travail de recherche sur l'étude et l'évaluation d'algorithmes d'apprentissage machine ubiquitaire pour du Big Data massivement distribué.

Vous trouverez ci-dessous la description du contexte de ce travail de recherche.

La mission et les principaux objectifs scientifiques seront précisés sous le titre "Entité".

Ces dernières années ont été marquées par une forte monté en puissance du « Big Data » : nous produisons des masses grandissantes de données que nous sommes capables à présent de stocker afin d'en extraire de nouvelles connaissances en utilisant des méthodes performantes telles que le "machine learning".

Les avancées scientifiques et technologiques concernant le stockage et l'analyse de ces grandes masses de données continuent à progresser de manière significative et régulière.

En même temps, ces données sont aujourd'hui générées de façon de plus en plus éparse, à l'instar de ce que l'on observe dans le domaine de l'Internet des Objets : des grandes quantités de petits équipements communicants produisent des données qui fournissent des informations sur leur environnement proche (capteurs environnementaux, systèmes de domotiques, vêtements intelligents, …).

Il nous apparaît que cette évolution inéluctable, qui conduit à une très large dispersion des données, va s'accompagner de nouveaux challenges : il sera de plus en plus difficile d'extraire de la connaissance de ces données, car les algorithmes couramment utilisés considèrent que la donnée à analyser reste « facilement accessible », les évolutions actuelles sur le respect de la vie privée vont imposer un traitement local des données.

De façon concrète, cette notion de « facilement accessible » se matérialise souvent par une « co-localisation » des données au sein d'un même espace de stockage de type « cloud ». En conséquence, les architectures permettant l'analyse de données largement distribuées exigent un rapatriement préalable de l'ensemble des données potentiellement utiles à l'analyse. Et il devient de plus en plus illusoire de considérer qu'il sera toujours possible de concentrer l'ensemble des données à analyser dans un seul et unique « cloud ».

Pour tenter d'adresser cette évolution d'architecture, Orange mène une réflexion consistant à « distribuer très largement » les algorithmes d'analyse de données, tels que le « machine learning ». La difficulté de cette démarche réside principalement dans le fait qu'il est connu qu'un algorithme, quel qu'il soit, ne peut pas être distribué sans conséquences fortes :

  • A la conception, un modèle de synchronisation doit être introduit dans l'algorithme afin de faire coopérer les différents flots d'exécution parallèles. L'introduction de ce composant « non fonctionnel » modifie très profondément la structure de l'algorithme.
  • A l'exécution, de nouveaux événements perturbateurs peuvent altérer le bon fonctionnement de l'algorithme, comme par exemple l'impossibilité d'accéder à une donnée ou encore la fin prématurée d'un flot d'exécution. De plus, des problèmes durs de « non convergence » ou « d'inter-blocage » apparaissent.

Ce point a été synthétisé dans l'article "Strategies and Principles of Distributed Machine Learning on Big Data" [1]. Après avoir souligné l'évolution d'architecture du Big Data que nous avons mentionnée, l'auteur donne une formalisation générale d'un algorithme de « machine learning » afin de proposer un modèle distribué générique permettant la répartition des algorithmes. [2]

D'autres approches existent et l'objet de travail attendu est d'identifier les acteurs académiques et industriels qui adressent ce problème et d'évaluer les solutions qu'ils proposent. [3] [4]



Ils recrutent...