Novembre 2023 – Pagina 2

by ps_oph on 2023-11-28 Lascia un commento

Settimana 3 – Base

Nella sfida della settimana 1 abbiamo visto la data ingestion con un S3 bucket. Adesso è il momento di fare un passo avanti. Questa settimana abbiamo un breve elenco di attività da svolgere.

Le nozioni di base non sono incredibilmente sconvolgenti, ma potrebbero farti un po’ crucciare quando inizierai a costruire la soluzione.

Il tuo datore lavoro ForstyFriday Inc., ha un S3 bucket pieno di dumps di dati in formato csv. Questi dumps non sono molto complitato e hanno tutti lo stesso stile e lo stesso contenuto. L’obiettivo è mettere tutti questi file in un’ unica tabella.

Ma potrebbe succedere che vengano caricati anche dei dati importanti che hanno uno schema di denominazione diverso e che devono essere monitorati. C’è bisogno quindi di mettere i metadati archiviati in una tabella di riferimento separata. Dentro al S3 bucket puoi trovare un file che ti permetterà di riconoscere questi file. Il file, heywords.csv, contiene tutte le parole chiave che contrassegnano un file come importante.

Obiettivo:

Creare una tabella che elenca tutti i file del nostro stage che contengono una qualsiasi delle parole chiave che sono indicate nel file heywords.csv.

L’URL del S3 bucket è: s3://frostyfridaychallenges/challenge_3/

Risultato:

Il risultato dovrebbe apparire così:

Ricordati che per partecipare devi:

Iscriverti come membro della comunità di Frosty Friday. Puoi farlo cliccando sulla barra laterale e poi andando su “Register” (da notare che l’iscrizione alla nostra mailing list non ti darà automaticamente un account Frosty Friday).
Postare il tuo codice su GitHub e renderlo disponibile pubblicamente. (Controlla qui la nostra guida se non sai come farlo).
Pubblicare l’URL nei commenti della sfida.

Se hai qualsiasi domanda tecnica che desideri porre alla community, puoi chiedere qui nel nostro thread dedicato.

by ps_oph on 2023-11-28 Lascia un commento

Settimana 2 – Intermedio

Lə stakeholder del dipartimento HR vorrebbe monitorare le modifiche, ma è preoccupatə che lo stream che ha creato possa fornire troppo informazioni, soprattutto a chi non se ne dovrebbe interessare.

Carica i dati in formato parquet e trasformali in una tabella. Quindi crea uno stream che mostrerà solo le modifiche fatte nelle colonne DEPT e JOB_TITLE.

Puoi trovare i dati parquet qui.

Esegui i comandi seguenti:

UPDATE <table_name> SET COUNTRY = 'Japan' WHERE EMPLOYEE_ID = 8; 
UPDATE <table_name> SET LAST_NAME = 'Forester' WHERE EMPLOYEE_ID = 22; 
UPDATE <table_name> SET DEPT = 'Marketing' WHERE EMPLOYEE_ID = 25; 
UPDATE <table_name> SET TITLE = 'Ms' WHERE EMPLOYEE_ID = 32; 
UPDATE <table_name> SET JOB_TITLE = 'Senior Financial Analyst' WHERE EMPLOYEE_ID = 68;

Il risultato dovrebbe apparire più o meno così:

Ricordati che per partecipare devi:

Iscriverti come membro della comunità di Frosty Friday. Puoi farlo cliccando sulla barra laterale e poi andando su “Register” (da notare che l’iscrizione alla nostra mailing list non ti darà automaticamente un account Frosty Friday).
Postare il tuo codice su GitHub e renderlo disponibile pubblicamente. (Controlla qui la nostra guida se non sai come farlo).
Pubblicare l’URL nei commenti della sfida.

Se hai qualsiasi domanda tecnica che desideri porre alla community, puoi chiedere qui nel nostro thread dedicato.

by ps_oph on 2023-11-28 Lascia un commento

Settimana 1 – Base

Il tuo datore di lavoro FrostyFriday Inc. ha un S3 bucket pieno di dump di dati in formato .csv. Questi dati sono necessari per l’analisi. Il tuo compito è quello di create uno stage esterno e caricare i file .csv direttamente dalla fase di stage in una tabella.

L’URL del S3 bucket è: s3://frostyfridaychallenges/challenge_1/

Ricordati che per partecipare devi:

Iscriverti come membro della comunità di Frosty Friday. Puoi farlo cliccando sulla barra laterale e poi andando su “Register” (da notare che l’iscrizione alla nostra mailing list non ti darà automaticamente un account Frosty Friday).
Postare il tuo codice su GitHub e renderlo disponibile pubblicamente. (Controlla qui la nostra guida se non sai come farlo).
Pubblicare l’URL nei commenti della sfida.

Se hai qualsiasi domanda tecnica che desideri porre alla community, puoi chiedere qui nel nostro thread dedicato.

Archivi per Novembre 2023