Descripción general del proyecto
En este proyecto, exploraremos el proceso de Extracción, Transformación y Carga (ETL) de datos utilizando tecnologías como MySQL, MongoDB, AWS y Python. Comenzaremos descargando un conjunto de datos de una plataforma que ofrece datos gratuitos para desarrolladores. Este conjunto de datos servirá como punto de partida para nuestro análisis y procesamiento de datos. El proceso de ETL implicará la extracción de datos de múltiples fuentes, incluidos archivos TXT, bases de datos MongoDB y archivos almacenados en Amazon S3. Utilizaremos Python para manipular y transformar los datos según sea necesario, preparándolos para su carga en nuestras bases de datos relacionales en MySQL. Este proyecto y la documentación de este repositorio se centran más en el proceso de extracción, transformación y carga de datos a las bases de datos tanto OLTP como OLAP que se han diseñado, así como en las configuraciones para desplegar el proyecto. Sin embargo, para llevar a cabo esta carga de datos, ha sido necesario realizar una recolección y análisis de datos previos para poder modelar adecuadamente las bases de datos tanto OLTP como OLAP. Si se necesita más información sobre el proceso de análisis para llevar a cabo el modelamiento y construcción de la base de datos, pueden visitar un proyecto en GitHub que tiene el paso a paso para la creación de la base de datos relacional. Repositorios en GitHub: - PostgreSQL Modelado y Carga de Datos. - Modelado, Carga de Datos con SQL Server y Análisis de Datos con SQL Server.
Requisitos previos - Tecnologías utilizadas
Antes de ejecutar este proyecto, asegúrese de tener instaladas las siguientes herramientas:
Arquitectura de Flujo de Datos

Estructura del proyecto
El proyecto está organizado en varios directorios, cada uno con un propósito específico:

Archivos de proceso ETL
Los archivos proceso_etl_OLTP.py y proceso_etl_OLAP.py contienen la lógica necesaria para realizar el proceso ETL (Extract, Transform, Load) en los modelos OLTP y OLAP, respectivamente. proceso_etl_OLTP.py:
proceso_etl_OLAP.py:
Captura de código proceso_etl_OLTP.py

Captura de código proceso_etl_OLAP.py

Modelo de Datos Relacional - OLTP
Después de analizar los archivos TXT del proyecto, se estructuró la base de datos y se crearon los scripts necesarios para las tablas de los modelos OLTP y OLAP. Estos scripts se encuentran en el directorio mysql_script y son utilizados para configurar el entorno de base de datos en MySQL antes de ejecutar el proceso ETL.

Modelo de Datos para Análisis - OLAP
