Quelles différences entre un data ingénieur, un data analyst et un data scientist ?

eFC logo
Quelles différences entre un data ingénieur, un data analyst et un data scientist ?

Si vous voulez vous assurer de ne pas perdre votre emploi dans la finance (ou ailleurs) au cours des cinq prochaines années, mieux vaut que travailliez dans le ‘Big Data’. Mais en quoi consistent exactement les jobs dans ce domaine ?

A l’occasion de la conférence Women of Silicon Roundabout qui se tenait fin juin à Londres, Dr. Rebecca Pope, responsable de l’ingénierie et de de la data science chez KPMG, a déclaré qu'il n'était pas nécessaire d'être un excellent statisticien ni un grand mathématicien pour travailler dans le Big Data. Vous n'avez pas non plus besoin de connaissances préalables en programmation.

Cependant, vous avez besoin d'un intérêt pour les statistiques, vous devez être disposé à apprendre à coder et à effectuer des opérations mathématiques de haut niveau.

Rebecca Pope elle-même n’a pas étudié les statistiques pures (elle est neuroscientifique). Elle n'a pas étudié non plus la programmation. En revanche, elle a appris à programmer après avoir obtenu son diplôme et a assisté à « d'innombrables hackathons ».

« J'ai commencé à apprendre R mais je vous conseillerais de vous spécialiser dans Python si vous vous lancez dans la data science. Faites de Python le premier langage que vous apprenez », relève-t-elle

D’après elle, les data scientists ne sont pas que des statisticiens. « Un statisticien est intéressé par la construction d'un modèle qui établit une relation entre une variable et un résultat. Un data scientist veut faire quelque chose de plus : prédire. Les data scientists forment à partir de données des modèles à même de prédire l'avenir de manière aussi précise que possible ».

Les emplois dans le Big Data se déroulent par étapes. Une utilisation commerciale doit être établie et les données brutes doivent être adaptées à l'usage prévu (ce que l'on appelle 'data wrangling'), puis les algorithmes qui analysent les données sont écrits et testés sur les données disponibles et, si ce sont des algorithmes de machine learning, apprendre des données et prédire l'avenir. Des visualisations et des APIs doivent être créées pour que le produit obtenu puisse être commercialisé.

Différents types de professionnels des données sont impliqués à différentes étapes, mais vous pouvez également être un data scientist généraliste opérant sur tout le spectre.

Que fait un data ingénieur ?

Rebecca Pope a élaboré le tableau suivant, qui montre les compétences dont les ingénieurs de données ont besoin et les tâches qu’ils exécutent. En gros, il s’agit de beaucoup d’ingénierie software et de préparation de données.

Le job de l’ingénieur de données est « la représentation et le déplacement des données afin qu’elles soient consommables et utilisables », explique-t-elle. Si vous êtes un data ingénieur, vous devez prendre les données brutes, les nettoyer, les transférer dans une base de données, les étiqueter et généralement vous assurer qu'elles sont prêtes pour la prochaine étape du processus ...

Rebecca Pope précise que les langages de programmation et les plates-formes dont vous aurez besoin pour les jobs dans la data ingénierie sont les suivants : Apache Spark, Scala, Docker, Java, Hadoop et Kubernetes NiFI.

Que fait un data analyst ?

Après l'ingénieur de données, vient l'analyste de données. Le graphique ci-dessous montre où interviennent les data analytsts. Il s’agit d’interférer avec l’entreprise pour déterminer ce qui est requis pour les données et de développer des visualisations qui permettent à l’entreprise d’interpréter facilement le contenu des données.

Le travail de l'analyste de données consiste à « interpréter les informations actuelles pour les rendre utiles pour l'entreprise », résume Rebecca Pope. A noter qu’il n'y a pas beaucoup de modélisation ou de déploiement de machine learning dans le poste de data analyst.

Si vous voulez être un analyste de données, Rebecca Pope ajoute que cela vous serait utile de comprendre comment utiliser le logiciel d'analyse prédictive RapidMiner ainsi que la base de données relationnelle open source Postgresql.

Que fait un data scientist ?

Enfin, il y a le fameux ‘data scientist’. C'est ce que la plupart des gens imaginent qu'ils vont faire s'ils travaillent avec des données. Les data scientists interagissent fortement avec l'entreprise et travaillent avec des ingénieurs de données. Ils forment des programmes d’apprentissage automatique sur des données spécialement préparées afin de fournir des visualisations faciles à utiliser et adaptées aux besoins de l’entreprise.

« Le rôle du data scientist est de créer des modèles qui peuvent faire des extrapolations à partir des données et faire des suggestions pertinentes pour l’entreprise », indique Rebecca Pope.

Les data scientists ont besoin de comprendre les statistiques, mais Rebecca Pope explique que la plupart des algorithmes de machine learning sont basés sur des calculs multivariés ainsi que sur l’algèbre linéaire et non linéaire. « C'est le niveau de mathématiques que vous devez avoir », ajoute-t-elle.

Vous aurez également besoin d'une bonne visualisation des données et de compétences humaines afin de pouvoir présenter votre modèle et ses résultats à l'entreprise - et l’encourager à l'utiliser.

Décrocher un job dans le Big Data

Rebecca Pope recrute pour KPMG. Et elle ne cherche pas seulement des doctorants et des étudiants en master spécialisés. « Être un bon data scientist, c'est être le "couteau suisse" capable d'intervenir dans tous le spectre du data ingénieur, data analyste et data scientist », relève-t-elle.

Quand Rebecca Pope recrute pour KPMG, elle se dit « aveugle » aux diplômes obtenus : ce qui compte le plus, c'est de savoir comment les candidats se comportent dans le défi technique défini par le cabinet. « Je suis beaucoup plus intéressée par la technologie que vous pouvez construire et ce que vous pouvez conduire pour notre clientèle [que par les qualifications] », précise-t-elle.

À cette fin, elle suggére que plutôt que d'étudier un master ou une certification plus onéreuse, vous recherchiez des stages et de l'expérience professionnelle et concourriez sur des plateformes comme Kaggle. « Il ne s'agit pas d'être un expert technique approfondi en Scala ou en Python, mais de déterminer ce dont vous avez besoin pour répondre aux questions posées par l'entreprise », conclut-elle.

Vous avez un scoop, une anecdote, un conseil ou un commentaire que vous aimeriez partager ? Contact : tiochem@efinancialcareers.com

A lire aussi…

Secteurs les plus recherchés

Loading...

Recherche emploi

Rechercher articles

Close
Loading...
Loading...