Cette semaine, nous avons invité Gaia Pometto, consultante en données aux Pays-Bas, à proposer un défi pour l’événement Data+Women. Elle présentera le défi en direct lors de l’événement et vous pouvez la trouver sur LinkedIn, Twitter et YouTube. Elle tient également à mentionner spécialement son collègue Atzmon Ben Binyamin qui a collaboré avec elle sur ce défi et l’a beaucoup aidée tout au long du processus. Vous pouvez trouver Atzmon sur LinkedIn.
Le Défi
Afin de préparer un futur flux d’ingestion de données, votre organisation souhaite obtenir des données à partir d’une API météorologique dans Snowflake. À la fin du flux, il est prévu de créer une table de faits à utiliser par les consommateurs.
Votre collègue Atzmon a déjà extrait un échantillon de données météorologiques de l’API et l’a momentanément stocké dans un bucket S3. Le bucket S3 contient un fichier JSON avec des données horaires pour 7 jours.
Votre flux se composera de 3 couches (schémas) de données :
a. Zone de débarquement (external stage, table brute weather_raw)
b. Zone de préparation (table de données brutes préparées weather_parsed)
c. Zone de consommation (table de données agrégées weather_agg)
Objectifs :
1. Créer un stage externe pour la zone de débarquement et copier le JSON.
2. Parser le JSON et créer une table weather_parsed dans la zone de préparation.
3. Créer une table pour la consommation weather_agg dans la zone de consommation.
La table doit contenir des agrégats par jour pour :
a. Température
b. Vitesse du vent
c. Définitions distinctes d’icônes pour une journée : par exemple « nuageux », « pluie », …
Voici le lien vers le bucket AWS S3 (bucket = frostyfridaychallenges, path = challenge_25).
Bonne chance !
La solution devrait ressembler à ceci :
Et n’oubliez pas, si vous souhaitez participer aux défis:
1. Inscrivez-vous en tant que membre de Frosty Friday. –> Vous pouvez le faire en cliquant sur la barre latérale, puis en cliquant sur ‘REGISTER‘ (notez que s’inscrire à notre liste de diffusion ne vous donne pas de compte Frosty Friday).
2. Publiez votre code sur GitHub et rendez-le accessible au public (consultez notre guide si vous ne savez pas comment faire, disponible ici)
3. Postez l’URL dans les commentaires du défi.
Si vous avez des questions techniques que vous souhaitez poser à la communauté, vous pouvez les poser ici, sur notre thread dédié.
Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.