10 Avril 2017 - dépannage, maintenance, suppression de virus et formation informatique sur Paris

Les nouveaux métiers du data : analyst, scientist, engineer et architecte data science.

Photo Frédéric Hourdeau

News

le 10/04/2017 à 21h55

Il n’est pas toujours simple de saisir  les différences entre ces différentes compétences et activités. Pour mieux comprendre la typologie des métiers de la data il est utile de préciser le rôle de chaque membre du « team data » et les compétences exigées pour l’exercer des différents métiers.

-         Le métier de Data analyst

Le data analyst a pour mission d’agréger des données venant de multiples sources, de les analyser et d’en extraire des informations permettant à l’entreprise de mieux piloter ses activités et d’anticiper ses futurs besoins.

Une partie essentielle de son travail est de restituer les conclusions de ses analyses aux autres services de l’entreprise, sous différentes formes (rapports, tableaux de bord, présentations).

Le data analyst doit donc avoir une compréhension fine des activités de son entreprise, et être un excellent communicant.

Doté de solides compétences en statistiques, à l’aise avec la visualisation de données, le data analyst doit également maîtriser les outils de Business Intelligence et le requêtage* de bases de données.

*en langage informatique, l'action de poser une requête, c'est à de faire une demande qui appelle une réponse.

-  Le métier de Data scientist

Le data scientist a la même mission que le data analyst : exploiter et valoriser les données, mais dispose de compétences différentes.

Le data scientist se substitue au data analyst quand l’analyse des données devient plus complexe et exige la maîtrise de techniques et outils plus pointus.

Cela peut être le cas :

-         quand le volume des données devient très grand (big data),

-         quand les données doivent être traitées très rapidement (pour des applications en temps réel, par exemple),

-         quand la nature même des données exige des traitements spécifiques (traitement du langage ou des images), ou quand le problème à résoudre nécessite une modélisation poussée relevant davantage de la R&D que de la restitution de statistiques.

On exige généralement d’un data scientist

-         une double compétence en machine learning et en développement software,

-         une compréhension des problématiques de l’entreprise, et une bonne capacité de communication.

Les algorithmes de traitement du langage permettent d’extraire les informations pertinentes de différents types et d’améliorer la recherche par mots-clefs.

-         L’architecte data science

L’architecte identifie les différentes sources de données aussi bien internes qu’externes qui pourront alimenter le data lake (1).

 Il s’appuie pour cela sur une vision transverse du système d’information de l’entreprise et réalise une veille sur les sources d’informations type open-data.

Le poste comporte également une part importante de veille technologique car il doit identifier et préconiser les technologies qui seront les plus pertinentes pour gérer le volume et le flux de donnée.

Il construit ensuite avec le data engineer l’architecture des systèmes d’agrégation et d’organisation en veillant aux aspects de scalabilité  (2) et résilience  (3) des éléments mis en place ainsi qu’au caractère évolutif de la solution.

-         Le Data engineer

Le data engineer s’occupe du côté applicatif permettant le travail des data scientist.

Il développe et entretient les systèmes de collecte, stockage et mise à disposition des données.

Il doit s’assurer que l’infrastructure reste fluide et opérationnelle : les applications doivent être robustes. Il développe, automatise les déploiements, installe des sondes afin de surveiller l’ensemble du système.

Le data engineer accompagne les équipes produit qui veulent exploiter les données en les aidant à déployer les solutions d’envoi et de récupération de données traitées par les data scientists.

Enfin, avec l’architecte, il reste en veille pour maintenir et faire évoluer l’architecture Big Data en vue de traiter des volumes de données toujours plus importants

(1)             Le Data Lake, ou lac de données, est un concept relativement nouveau lié à l’émergence du Big Data. L’idée est de pouvoir fournir un stockage global des informations présentes dans l’entreprise.

Il s’agit de le faire avec suffisamment de flexibilité pour interagir avec les données, qu’elles soient brutes ou très raffinées.

L’une des clés de cette flexibilité est l’absence de schéma strict imposé aux flux entrants. Cette faculté permet d’insérer toutes les données, quelles que soient leur nature et leur origine. Au-delà du stockage, l’un des enjeux du Data Lake est de pouvoir très facilement traiter et transformer l’information afin d’accélérer les cycles d’innovation, et ainsi être un support aux différentes initiatives data.

L’émergence du concept de Data Lake s’est accélérée grâce avec la convergence du besoin de plateformes fédératrices dans les entreprises et de nouveaux moyens techniques économiques apportés par les technologies de Big Data.

(2)            En informatique matérielle et logicielle et en télécom, la scalability ou scalabilité désigne la capacité d'un produit à s'adapter à un changement d'ordre de grandeur de la demande (montée en charge), en particulier sa capacité à maintenir ses fonctionnalités et ses performances en cas de forte demande.

(3)          En informatique, la résilience est la capacité d'un système ou d'une architecture réseau à continuer de fonctionner en cas de panne


barre-dépannage, installation, maintenance et formation informatique Paris à domicile


Google lance un site qui centralise et explique tous ses projets open source. La firme a bien compris les atouts de l’open source : un excellent moyen de défendre ses intérêts. - News - publié le 10/04/2017


Google vient de lancer un nouvel espace dans lequel la firme présente tous ses projets open source. L’occasion pour elle de détailler sa manière de travailler avec l'open source, une stratégie pour inciter les utilisateurs à opter pour ses solutions plutôt que pour celles proposées par la concurrence.

Terra Data, nos vies à l’ère du numérique : Du 4 avril 2017 au 7 janvier 2018 à la Cité des sciences et de l’industrie. - News - publié le 09/04/2017


Le développement exponentiel du numérique est à l’origine d’une profonde et rapide transformation de nos vies. C’est sur ce sujet brulant que se penche l’exposition.