Update README.md

6c63987b · Cristian Aguirre · fddc6a2b · 6c63987b
Commit 6c63987b authored Apr 09, 2024 by Cristian Aguirre
Hide whitespace changes
Inline Side-by-side

Showing with 31 additions and 1 deletion

README.md README.md +31 -1

No files found.
--- a/README.md
+++ b/README.md
 # BCOM-Components-Innovation-Tests

 BCOM-Components-Innovation-Tests
-Pruebas de Bcom sobre tecnologías (Spark, )
\ No newline at end of file
+Pruebas de Bcom sobre tecnologías (Python 3.10, Spark 3.4.0, Prefect 2.16.4)
+
+Scripts de ejecución:
+
+1.- etl.py: Extracción y guardado de datos de 9 archivos (descritos en el archivo config.json)
+2.- etl_2.py: Extracción y guardado de datos de archivos grandes - millones de datos (descritos en el archivo config2.json)
+3.- commission_2.py: Ejecución de lógica de comisión (con jerarquía) y uso de grafos.
+
+Ejecución:
+
+1. Crear un ambiente con python 3.10, activarlo e instalar todas las librerías del archivo requirements.txt
+2. Validar los archivos de configuración (insumos, credenciales) y las constantes de scripts.
+3. Ejecutar, por ejemplo: python etl.py
+
+En el caso de AWS EMR:
+
+1. Colocar todo el código (proyecto) dentro de la instancia master
+2. Validar todos los jars e insumos en el bucket correspondiente (recordar que EMR usa S3
+como filesystem distribuido). Recordar que en AWS, no se necesitan los jars de AWS S3, porque los tiene
+por default.
+3. Ejecutar el comando (varía de acuerdo a los requisitos de driver y executor):
+
+```shell
+spark-submit \
+    --jars s3://bucket-emr-example/bcom_spark/jars/hadoop-lzo-0.4.3.jar,s3://bucket-emr-example/bcom_spark/jars/mysql-connector-java-8.0.30.jar \
+    --conf spark.driver.extraClassPath=s3://bucket-emr-example/bcom_spark/jars/hadoop-lzo-0.4.3.jar,s3://bucket-emr-example/bcom_spark/jars/mysql-connector-java-8.0.30.jar \
+    --conf spark.executor.extraClassPath=s3://bucket-emr-example/bcom_spark/jars/hadoop-lzo-0.4.3.jar,s3://bucket-emr-example/bcom_spark/jars/mysql-connector-java-8.0.30.jar \
+    etl.py --master yarn --deploy-mode cluster
+
+```
+