4c
no way to compare when less than two revisions
Différences
Ci-dessous, les différences entre deux révisions de la page.
— | 4c [2020/07/26 16:27] (Version actuelle) – créée - modification externe 127.0.0.1 | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ====== 1- Qu’est-ce que le Big Data ? : D’où proviennent les données, comment elles sont stockées, dans quels buts sont-elles exploitées ? ====== | ||
+ | |||
+ | |||
+ | L’idée du Big Data (Grande données) est d’enregistrer **le plus de données possible** quelque soit sa forme ou son contenu. L’enregistrement de ses données **augmente d’année en année**, et cela de plus en plus rapidement. Ses données sont enregistré principalement par des **sites internet, les applications mobiles, les conversations téléphonique ou par message**. Mais aussi par les appareils de la vie quotidienne telle que les alarmes incendies, les volets de fenêtres etc… | ||
+ | |||
+ | Ces données vont servir majoritairement au **ciblage publicitaire**, | ||
+ | |||
+ | Ces données ont donc une **finalité économique importante** du fait que les sites récoltes des données pour ensuite les proposés à des annonceurs qui vont pouvoir ciblés des **acheteurs potentiels** qui ont un rapport avec leur activité. Mais aussi ça peut permettre de développer de nouveaux produits en analysant la demande des consommateurs à travers leurs requêtes, tout en dynamisant l’innovation. | ||
+ | |||
+ | On présente souvent le Big Data sous un autre « nom », les **3V**, qui signifient : **V**olume, **V**itesse, | ||
+ | |||
+ | On peut aussi distinguer un autre but de cette **collecte de masse**. Elle va permettre de proposer aux utilisateurs de naviguer sur le web de manière « **gratuite** », comme le dit l’expression « Si c’est gratuit, alors c'est que vous êtes le produit » et donc dans ce cas même ce sont les données qui sont le produit. | ||
+ | |||
+ | |||
+ | |||
+ | ====== 2 – Gestion et traitement des données par des algorithmes ainsi que la validation ====== | ||
+ | |||
+ | Le choix des algorithmes et des méthodes, est un **savoir-faire capital** dans le domaine de la data science. L’expertise sur les outils, fait partie intégrante de l’équation. De même, penser le modèle avec l’**industrialisation** en tête est un point clé de succès. | ||
+ | |||
+ | __Le choix des algorithmes est donc fait en fonction d’un grand nombre de paramètres :__ | ||
+ | |||
+ | • La **qualité et la disponibilité** des données en entrée qui sont en amont traitées et collectées | ||
+ | |||
+ | • Les **contraintes d’industrialisation** (comme par exemple le temps de calcul) | ||
+ | |||
+ | • La **vitesse d’exécution** de l’algorithme soit précis et robuste | ||
+ | |||
+ | • Les **outils** qui doivent être utilisés pour que l’algorithme soit performant et fiable | ||
+ | |||
+ | • Le **type d’infrastructure** à mettre à disposition (serveur de fichiers par exemple) | ||
+ | |||
+ | |||
+ | Avant toute mise en production, il est également important que les modèles établis soient testés avec le plus grand soin. | ||
+ | |||
+ | __Cette évaluation se fait (pour rappel) principalement sur deux critères qui sont :__ | ||
+ | |||
+ | • La **précision** : pour que l’algorithme soit valide, il faut qu’il soit **précis dans ses recherches** | ||
+ | |||
+ | • La **robustesse** : l’algorithme doit être robuste, c’est-à-dire qu’il doit permettre d’**exécuter toutes les requêtes effectuées** par l’utilisateur, | ||
+ | |||
+ | |||
+ | La précision dépend principalement de la **taille de l’échantillon** | ||
+ | C’est pourquoi il est indispensable de tester la robustesse qui permet de garantir que le modèle, une fois mis en production sur des données | ||
+ | |||
+ | |||
+ | ======3 – Ethique de cette pratique====== | ||
+ | |||
+ | Il y a l’émergence évidente de **problèmes éthiques**, | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | **Sources :** | ||
+ | |||
+ | L' | ||
+ | http:// | ||
+ | |||
+ | Comprendre ce que permet le Big Data : | ||
+ | https:// | ||
+ | |||
+ | Introduction d' | ||
+ | https:// | ||
+ | |||
+ | |||
4c.txt · Dernière modification : 2020/07/26 16:27 de 127.0.0.1