Comment peut-on être sûr des données que l’on récolte ? Qu’est-ce que des données fiables ou des données de qualités :
Données imprécises : les identifier pour mieux les exploiter L’explosion des technologies autour des Big Data en entreprise nous offre la possibilité de faire face à la multiplication des sources d’informations, tels les réseaux sociaux, systèmes de géo-localisation, données personnelles, web logs… afin d’accroitre le niveau de connaissance de l’entreprise sur, par exemple, les comportements clients ou l’usage de leur produits. Cependant, malgré l’engouement pour le Big Data et selon une étude menée dans 5 pays européens, 70% des entreprises interrogées estiment que leurs données comportent des erreurs et 46% considèrent ce manque de qualité comme un frein à leurs activités. Les « Datarati », entreprises matures dans les technologies Big Data, sont elles-mêmes 62% à identifier des données imprécises dans leurs résultats de recherche et 45% ne disposent d’aucun procédé pour s’assurer de la qualité de leurs datas. Pour les entreprises sondées, ces « Bad data » ont un impact négatif et peuvent être un véritable frein pour le développement de leurs activités. Avec la sécurité, la qualité de leurs données est l’une de leurs principales préoccupations. Les bad data doivent être également transformées pour les amener au même niveau de qualité que les autres données. Mais pour cela, encore faut-il être capable de les récupérer, de les nettoyer et de les structurer.