Haoui.com

La science des données, en savoir plus


En termes généraux, la science des données est l’extraction de connaissance d’ensembles de données.

La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées. Elle est souvent associée aux données massives et à l'analyse des données.

Repertoire Image

Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information.

Parmi elles : les modèles probabilistes, l’apprentissage automatique, l’apprentissage statistique, la programmation informatique, l’ingénierie de données, la reconnaissance de formes, la visualisation de données, l’analytique prophétique, la modélisation d’incertitude, le stockage de données, la géovisualisation, la compression de données et le calcul à haute performance. Les méthodes qui s’adaptent aux données de masse sont particulièrement intéressantes dans la science des données, bien que la discipline ne soit généralement pas considérée comme limitée à ces données.

La science des données (en anglais data science) est une discipline qui s'appuie sur des outils mathématiques, de statistiques, d’informatique (cette science est principalement une « science des données numériques ») et de visualisation des données. Elle est en plein développement, dans le monde universitaire ainsi que dans le secteur privé et le secteur public. Moore en 1991 a défini la statistique comme la science des données (définition reprise par d’autres, dont James T. McClave et al. en 1997) et U. Beck en 2001 oppose la science des données à la science de l’expérience, voyant une dissociation croissante entre ces deux types de science, que tendrait selon lui à encourager une société de la gestion du risque au sein d’une « civilisation du danger ».

 

Rôle du data scientist

Le premier objectif du « data scientist » est de produire des méthodes de tri et d’analyse de données de masse et de sources plus ou moins complexes ou disjointes de données, afin d’en extraire des informations utiles ou potentiellement utiles.

Pour cela, le « scientifique des données » exerce ses activités selon 4 étapes :

- La fouille de données,

- Le nettoyage/formatage des données (data wrangling)

- Le traitement des données

- Traitements classiques (fonctions mathématiques)

- Traitements d'apprentissage automatique

- Visualisation de données

- L'exploitation des résultats

- Tableaux de bords et outils d'aides à la décisions (pouvant être notamment intégrés sur des sites web)

- Publications de résultats de recherche (interne à l'entreprise, ou publics)

Le datascientist est donc souvent appelé à manipuler les statistiques, le traitement du signal. Il s'intéresse donc à la classification, au nettoyage, à l'exploration et à l'analyse de bases de données plus ou moins interopérables.

Objectifs

Les objectifs de la datascience sont multiples :

- Au sein du monde de la recherche et des universités, cette science permet simplement de mieux produire, valoriser et mémoriser la connaissance (savoir et savoir-faire). À titre d'exemple, un projet « Paris-Saclay Center for Data Science » est porté par l'Université Paris-Saclay .

- Au sein des entreprises privées ou nationales, le scientifique des données rend l'information plus facile à exploiter, à protéger et à valoriser.

- Au sein des collectivités territoriales et des agences gouvernementales ou de structures intergouvernementales (GIEC par exemple), il s'agit de permettre une production et une utilisation plus efficiente des données et des statistiques, au service d'outils de retour d'expérience (REX), d'outils d'aide à la décision, d'évaluation et de production de bonnes pratiques en matière de gouvernance et de politiques publiques. Ainsi les États-Unis ont-ils en 2009 créé un poste de Chief technology officer (occupé par Dhanurjay "DJ" Patil, un mathématicien né en 1969).

En réponse à la complexité croissante de la science des données, des partenariats s'établissent entre collectivités, universités, grandes écoles et secteur privé, ce travail étant pris en charge en interne ou sous-traité par une entreprise spécialisée.

Histoire

Le terme science des données (data science en anglais) a été forgé lors du 2 colloque franco-japonais de statistique tenu à l’Université Montpellier II (France). Les participants ont reconnu l’émergence d’une nouvelle discipline au cœur de laquelle se trouvent des données de toutes origines, tailles, types et structures. Cette activité doit s’appuyer sur des concepts et des principes reconnus de la statistique et de l’analyse des données tout en exploitant pleinement la puissance croissante des outils informatiques. En 2001, William Cleveland reprenait essentiellement les mêmes idées dans un article programmatique paru en 2001 « Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics » qui précise les contours de cette discipline émergente.

Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité).

Elle a reçu beaucoup d'attention dernièrement grâce à l’intérêt grandissant pour les "données massives". Cependant, la science des données ne se limite pas à l’étude de bases de données pouvant être qualifiées de "données massives".

Par ailleurs, l'essor de techniques d’apprentissage automatique (en anglais machine learning) et d’intelligence artificielle a également participé à la croissance de cette discipline et à son ouverture vers de nouveaux champs en passant, par exemple, de l’analyse statistique pure de données fortement structurées à l’analyse de données semi-structurées (XML par exemple) pour notamment mettre « en correspondance des bases de données et de données textuelles ».

Formation : Cette science nouvelle a naturellement généré « l'émergence d'une nouvelle filière de formation : « data scientists » ».

En France

Cette science s’inscrit dans les efforts d’accompagnement du numérique, en lien depuis qu’elle existe avec la mission Etalab, dont le directeur, Henri Verdier, est aussi « administrateur général des données de l’État », assisté par des scientifiques de données recrutés pour « accélérer la possibilité de politiques publiques « augmentées » par les données et leur analyse ».

Texte et photo sous licence CC BY-SA 3.0. Contributeurs, ici

Des entreprises d'informatique :

75002 - CRM CENTRIC https://www.integration-crm-salesforce.com
75020 - DONKEYCODE https://www.applications-metiers-sur-mesure.com
78350 - TOTALINUX https://www.immersion-it-data-center.com
91140 - XEROBOUTIQUE SUD https://www.photocopieur-imprimante-couleur.com
91630 - GIGA CONCEPT https://www.giga-concept.fr/
92100 - DECILIA https://www.business-intelligence-data-science.com
92100 - CONCEPTA https://www.solutions-numeriques-informatiques-92.com
92110 - MTB https://www.informatique-obsolescence-migration-complexite.com
92240 - D-ONE CONSULTING FRANCE https://www.business-intelligence-paris.com