Nella sfida della settimana 1 abbiamo visto la data ingestion con un S3 bucket. Adesso è il momento di fare un passo avanti. Questa settimana abbiamo un breve elenco di attività da svolgere.
Le nozioni di base non sono incredibilmente sconvolgenti, ma potrebbero farti un po’ crucciare quando inizierai a costruire la soluzione.
Il tuo datore lavoro ForstyFriday Inc., ha un S3 bucket pieno di dumps di dati in formato csv. Questi dumps non sono molto complitato e hanno tutti lo stesso stile e lo stesso contenuto. L’obiettivo è mettere tutti questi file in un’ unica tabella.
Ma potrebbe succedere che vengano caricati anche dei dati importanti che hanno uno schema di denominazione diverso e che devono essere monitorati. C’è bisogno quindi di mettere i metadati archiviati in una tabella di riferimento separata. Dentro al S3 bucket puoi trovare un file che ti permetterà di riconoscere questi file. Il file, heywords.csv, contiene tutte le parole chiave che contrassegnano un file come importante.
Obiettivo:
Creare una tabella che elenca tutti i file del nostro stage che contengono una qualsiasi delle parole chiave che sono indicate nel file heywords.csv.
L’URL del S3 bucket è: s3://frostyfridaychallenges/challenge_3/
Risultato:
Il risultato dovrebbe apparire così:
Ricordati che per partecipare devi:
- Iscriverti come membro della comunità di Frosty Friday. Puoi farlo cliccando sulla barra laterale e poi andando su “Register” (da notare che l’iscrizione alla nostra mailing list non ti darà automaticamente un account Frosty Friday).
- Postare il tuo codice su GitHub e renderlo disponibile pubblicamente. (Controlla qui la nostra guida se non sai come farlo).
- Pubblicare l’URL nei commenti della sfida.
Se hai qualsiasi domanda tecnica che desideri porre alla community, puoi chiedere qui nel nostro thread dedicato.