Semana 3 – Básico

En la Semana 1 analizamos la ingesta de datos S3, ahora es el momento de dar un paso más. Así que esta semana tenemos una breve lista de tareas para que todos ustedes hagan.

Los conceptos básicos no son trascendentales, pero pueden hacer que te rasques un poco la cabeza una vez que comiences a construir la solución.

Frosty Friday Inc., su empleador benévolo, tiene un depósito S3 que se llenó con volcados de datos .CSV. Estos volcados no son muy complicados y todos tienen el mismo estilo y contenido. Todos estos archivos deben colocarse en una sola tabla.

Sin embargo, puede ocurrir que también se carguen algunos datos importantes, estos archivos tienen un esquema de nombres diferente y necesitan ser rastreados. Necesitamos tener los metadatos almacenados como referencia en una tabla separada. Puede reconocer estos archivos debido a un archivo dentro del depósito S3. Este archivo, keywords.csv, contiene todas las palabras clave que marcan un archivo como importante.

Objetivo:

Cree una tabla que enumere todos los archivos en nuestra etapa que contengan cualquiera de las palabras clave en el archivo keywords.csv.

El URI del depósito S3 es: s3://frostyfridaychallenges/challenge_3/

Resultado:

Tu resultado debería verse así:

Recuerda que si deseas participar:

  1. Regístrate como miembro de Frosty Friday. Puedes hacerlo haciendo clic en la barra lateral y luego yendo a «REGISTRARSE» (ten en cuenta que unirte a nuestra lista de correo no te proporcionará una cuenta de Frosty Friday).
  2. Publica tu código en GitHub y asegúrate de que sea de acceso público (consulta nuestra guía si no sabes cómo hacerlo).
  3. Publica la URL en los comentarios del desafío.

Si tienes alguna pregunta técnica que te gustaría plantear a la comunidad, puedes hacerlo aquí, en nuestro hilo dedicado a estos retos.