Quelle est la différence entre un outil de Business Intelligence et un outil d'IA ?
Un outil de Business Intelligence permet d'analyser le passé. Un outil d'IA permet de prédire l'avenir.
Quelle est la différence entre donnée structurée et non structurée ?
Une donnée structurée est une donnée qui a été prédéfinie et formatée selon une structure précise. La base de données relationnelle est le meilleur exemple de données structurées. Une donnée non structurée est une donnée stockée dans son format d'origine et non traitée avant son utilisation.On peut citer en exemple : emails, posts, présentations, chats, données issues de IOT, images satellites, données de navigation. Les différences entre données structurées et données non structurées se résument aux types de données utilisables, au niveau d'expertise requise pour les utiliser et au schéma à l'écriture (utilisée pour les données structurées) plutôt qu'à la lecture (utilisées pour les données non structurées).
Quel est le métier d'un data scientist ?
Le métier de Data Scientist consiste à améliorer les performances de l'entreprise en faisant parler les données. Il est un mélange entre Mathématiques (Statistiques), Informatique et Communication / Marketing ! En effet, le/la Data Scientist saura recueillir les données d'intérêt pour l'entreprise, les traiter, les analyser, et instaurer des modèles prédictifs (c'est là où l'IA intervient) afin d'aider son entreprise à la décision. Le/la Data Scientist doit aussi faire en sorte de mettre en forme les résultats attendus afin qu'ils soient interprétables et exploitables sur le long terme !
Quel est le métier d'un data engineer ?
Un Data Engineer est le premier acteur du traitement de la donnée dont la tâche principale consiste à préparer les données pour des utilisations analytiques ou opérationnelles. Il est généralement chargé de construire des pipelines de données pour rassembler des données provenant de différentes sources. Il intègre, consolide, nettoie les données et les structure tout en garantissant la sécurité de celles-ci. Il vise à rendre les données facilement accessibles et à optimiser l'écosystème big data de l’entreprise.
Que sont les "stop words" ?
Les stopwords sont des mots fréquemment utilisés et qui ne fournissent pas d'informations utiles au sens d'un texte : soit ils n'ont pas de signification (prépositions, conjonctions, etc.), soit ils sont trop fréquents.
Qu'est-ce qui se cache derrière le terme "lemmatisation" ?
La lemmatisation est une opération préliminaire pour la reconnaissance des mots d'une phrase, à partir des constituants d'une phrase. Elle consiste à regrouper les formes occurrentes d'un texte ou d'une liste sous des adresses lexicales. Elle permet notamment de renforcer les liaisons statistiques existantes entre les différentes occurrences des formes. Longtemps, la lemmatisation a consisté à fabriquer un artéfact du texte où les lemmes remplaçaient carrément les formes occurrentes fléchies. Avec la généralisation de l'HTML et surtout de XML, il est possible d'aligner les versions lemmatisées et brutes, sous forme de colonnes parallèles. La lemmatisation est l'une des techniques de préprocessing les plus utilisées dans le NLP et l'apprentissage automatique en général.
Qu'est-ce qu'un data mesh ?
Pour faire simple, la Data Mesh est l’équivalent des microservices pour la Data. Il s'agit d'une architecture de données décentralisée qui organise les données par domaine d'activité spécifique (par exemple, le marketing, les ventes, le service client, etc.) qui permet de simplifier la collaboration et le self-care. II repose sur plusieurs concepts clés : une propriété des données » partagée entre différents » data owners » orientés domaines, une détention et une gestion des pipelines ETL par domaine, un self-service permettant aux utilisateurs de se focaliser sur leurs cas d’usage individuels des données et enfin l’interopérabilité.
Qu'est-ce que le data mining ?
Le Data mining, orage de données, exploration de données, fouilles de données ou encore knowledge discovery désignent l’analyse de données depuis différentes perspectives et le fait de transformer ces données en informations utiles, en établissant des relations entre les données ou en repérant des patterns. Techniquement, c'est le procédé permettant de trouver des corrélations ou des patterns entre de nombreuses bases de données relationnelles. Il est une composante essentielle des technologies Big Data et des techniques d’analyse de données volumineuses. Le Data Mining implique la collecte, le stockage efficace des données ainsi que le traitement informatique. Par exemple, les entreprises peuvent en apprendre davantage sur leurs clients et élaborer des stratégies plus efficaces liées aux diverses fonctions de l'entreprise, ce qui leur permet de tirer parti des ressources de façon plus optimale et plus judicieuse. Cela aide les entreprises à se rapprocher de leurs objectifs et à prendre de meilleures décisions.