Commit 6c63987b authored by Cristian Aguirre's avatar Cristian Aguirre

Update README.md

parent fddc6a2b
# BCOM-Components-Innovation-Tests
BCOM-Components-Innovation-Tests
Pruebas de Bcom sobre tecnologías (Spark, )
\ No newline at end of file
Pruebas de Bcom sobre tecnologías (Python 3.10, Spark 3.4.0, Prefect 2.16.4)
Scripts de ejecución:
1.- etl.py: Extracción y guardado de datos de 9 archivos (descritos en el archivo config.json)
2.- etl_2.py: Extracción y guardado de datos de archivos grandes - millones de datos (descritos en el archivo config2.json)
3.- commission_2.py: Ejecución de lógica de comisión (con jerarquía) y uso de grafos.
Ejecución:
1. Crear un ambiente con python 3.10, activarlo e instalar todas las librerías del archivo requirements.txt
2. Validar los archivos de configuración (insumos, credenciales) y las constantes de scripts.
3. Ejecutar, por ejemplo: python etl.py
En el caso de AWS EMR:
1. Colocar todo el código (proyecto) dentro de la instancia master
2. Validar todos los jars e insumos en el bucket correspondiente (recordar que EMR usa S3
como filesystem distribuido). Recordar que en AWS, no se necesitan los jars de AWS S3, porque los tiene
por default.
3. Ejecutar el comando (varía de acuerdo a los requisitos de driver y executor):
```shell
spark-submit \
--jars s3://bucket-emr-example/bcom_spark/jars/hadoop-lzo-0.4.3.jar,s3://bucket-emr-example/bcom_spark/jars/mysql-connector-java-8.0.30.jar \
--conf spark.driver.extraClassPath=s3://bucket-emr-example/bcom_spark/jars/hadoop-lzo-0.4.3.jar,s3://bucket-emr-example/bcom_spark/jars/mysql-connector-java-8.0.30.jar \
--conf spark.executor.extraClassPath=s3://bucket-emr-example/bcom_spark/jars/hadoop-lzo-0.4.3.jar,s3://bucket-emr-example/bcom_spark/jars/mysql-connector-java-8.0.30.jar \
etl.py --master yarn --deploy-mode cluster
```
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment