Sélectionner une page

 

 

Le jeu de données est une collection de données le plus souvent stockées dans une matrice de données ou dans un format de base de données. Chaque Data Scientist a besoin d’un jeu de données approprié pour créer un projet d’apprentissage automatique. En tant que passionné d’apprentissage automatique moi-même, je crois que les données sont l’âme d’un projet d’apprentissage automatique, il est donc important de choisir le jeu de données parfait pour son utilisation correcte. Voici quelques-uns des meilleurs sites Web et certains de mes favoris personnels ; j’utilise souvent pour télécharger des ensembles de données.

 

1. Kaggle Base de données

Mon favori personnel et l’un des sites Web les mieux entretenus avec une énorme quantité de données disponibles. En plus d’être un fournisseur de données, ce site est célèbre pour ses nombreuses compétitions en ligne de science des données et d’apprentissage automatique, ainsi que pour son banc de travail basé sur le cloud pour les scientifiques et les chercheurs. Kaggle est devenu une énorme agglomération travaillant dans le domaine de la science des données sous différents sous-thèmes. Il s’agit également de la plus grande communauté en ligne de scientifiques des données au monde. Avec des options de recherche faciles à utiliser et des choix disponibles, il bouillonne définitivement pour être le meilleur de la ligue.

 

2. IMDB Base de données

Pléthore de jeux de données liés au cinéma peuvent être trouvés liés au géant de l’information cinématographique IMDB (Internet Movie Data Base). Nous obtenons les meilleures données sur les films, tant en quantité qu’en qualité. Il est le mieux noté pour les projets de système de recommandation de films par exemple : système de recommandation de films basé sur les critiques précédemment données par un utilisateur et bien d’autres.

 

3. référentiel d’apprentissage automatique UCI

Il fournit des données corrigées pour les projets dans les domaines liés à la machine. Il s’agit d’une énorme collection de bases de données, de théories de domaine et de générateurs de données. Avec sa grande popularité parmi les étudiants, les professionnels, les professeurs et les chercheurs du monde entier, les dépôts ont été cités plus de 1000 fois.

 

4. ensembles de données du gouvernement US

Le gouvernement des États-Unis fournit un accès gratuit à un grand nombre de ses catalogues et ensembles de données en ligne à des fins de recherche et de développement. Il s’agit de l’une des meilleures sources fournissant une grande quantité de données en un seul endroit. Avec plus de 18 000 ensembles de données « csv » et de nombreuses autres bases de données, le site a acquis une grande popularité. Il est utile pour les scientifiques de données ainsi que pour les chercheurs dans le domaine de l’apprentissage automatique.

 

5. plateforme ouverte de données du gouvernement indien

L’un des sites Web les plus cool et les plus interactifs qui soient est la plateforme de fournisseurs de jeux de données maintenue par le gouvernement indien. Les données présentes sont utiles pour les analystes de données et l’apprentissage profond et les problèmes d’apprentissage automatique. Il est connu pour ses données authentiques et de haut niveau disponibles sur Internet. La plupart des données sont liées au recensement et aux statistiques du sous-continent indien.

 

6. ensembles de données Yelp

Yelp est l’un des plus grands sites d’évaluation aux États-Unis. Il contient plus de 6 millions d’avis pour des centaines de milliers de restaurants et d’entreprises. Il peut être utilisé dans l’analyse des sentiments et les technologies d’extraction ainsi que dans les systèmes de recommandation. Il contient une cave d’avis, d’utilisateurs, de conseils, de données d’enregistrement ainsi que de données commerciales pour aider à obtenir des informations à partir des données.