Nicolas Hernández Data Scientist

julio 10, 2023

grabando ok bueno la primera etapa del proceso es la importación de las librerías, pues las librerías que se usan son las básicas para entrenamiento de modelos de machine learning en python, es decir scikit learn, matplolive, pandas, numpy y seaborn, usamos algunas más como pluna y pickle y adicionalmente vamos a importar un archivo llamado transformaciones, transformaciones es un archivo de python que contiene varias funciones útiles para todo el entrenamiento y toda la inferencia del modelo, entonces si abrimos este archivo de transformaciones.py vamos a encontrar las siguientes funciones, la primera función se llama new variables menor, es una función que crea variables para el modelo menor además de crea variables y hace algunas imputaciones y además de eso cambia formatos de variables de fecha, la segunda función es una función llamada agregar y en bajo tabla y en bajo criterio y es una una que una función para sumar la tabla del criterio experto de la quincena actual con la tabla del criterio experto acumulada, también está la función para predecir cuando se tiene un conjunto de 10 modelos, ésta se llama rf-predict y básicamente lo que hace es predecir cuando uno tiene los modelos del modelo mayor, tiene en realidad se componen 10 modelos de clasificación y para decidir si un cliente es clasificado como captador o no, se tiene que elegir una regla para decidir si cuántos de los modelos es necesario que estén de acuerdo para que un cliente sea clasificado como captador, además también pues tiene una regla para calcular el pret-proba que básicamente es promediando los pret-proba de todos los de todos los clientes después de después de esta importación de librerías lo que sigue es la lectura de los metadatos, ésta es la única parte del proceso en la que pues hay que modificar datos de la ejecución, se hace, bueno básicamente son tres seis ocho ocho metadatos que corresponden a la quincena actual que siempre se escribe como 1q, 2q con la q mayúscula, el mes en tres letras, hun, hul, dek, n y el año solo los últimos dos dígitos es decir 23 en el ejemplo particular estamos en 2q, hun, 23 el siguiente metadato es q y un bajo ant que es la quincena anterior que se calcula usando una función que está en transformaciones entonces en realidad ahí no se tiene que modificar nada, luego está el tamaño de la muestra, el tamaño de la muestra es una variable que para el entrenamiento de los modelos del modelo mayor o de los modelos mayores se hacen muestreos, distintos muestreos para el entrenamiento porque no se toman todos los datos debido a que hay muy pocos datos de captadores entonces para que el modelo quede lo más balanceado posible entonces se toma una muestra esa muestra óptimamente es de digamos se puede bajar hasta los 21 mil datos de tal manera que el balance es el mayor es la muestra más pequeña para que ya balance de para adelante cualquier valor de la muestra pues es apto entonces estamos estrellando con 370 mil datos en este momento pero eso se puede modificar hasta los 21 mil, luego viene la variable de límite guión bajo ant que es cuántos modelos en la predicción del modelo mayor tienen que estar de acuerdo para que un cliente sea clasificado como captador realmente ese parámetro está en 10, luego está la variable límite que es lo mismo que el anterior pero para el modelo actual para el modelo que se entrene actualmente luego está la variable muestreo guión bajo final que es como se hace un muestreo de todos los de todos los digamos del resultado del modelo y ese muestreo se hace porque las personas que hacen su el análisis posterior pues tienen una capacidad limitada para analizar entonces ese esa capacidad actualmente es de 50 registros entonces ese muestreo que se hace con una digamos que la probabilidad de aparición en esa muestra es proporcional a un score es actualmente 50 trials es otra de la siguiente variable trials es básicamente el número de intentos que se hacen para tunear hiperparámetros usando la librería job tuna en este caso son 50 y el file guión bajo pat es la dirección o el nombre del archivo en donde está la información de que envía a ch en en el mes del mes en curso no si no hay del mes en curso pues del mes que haya información el siguiente paso es la carga de datos la carga de datos implica importación de modelos tanto de la quincena anterior como la quincena actual y y adicionalmente a eso implica cargar datos de la quincena anterior y la quincena actual no es decir tanto datos como modelos entonces pues los modelos que se cargan son el modelo que se llama random guión vas guión bajo mayor guión bajo el nombre de la quincena anterior si la quincena anterior es 1q 23 pues será así el nombre del archivo y se encuentra alojado en la carpeta del archivo la carpeta de la quincena anterior lo mismo para el modelo menor random forrest guión bajo menor guión bajo quincena la quincena anterior punto pk l estos archivos donde están los modelos se encuentran alojados en la carpeta del mes anterior

Buscar este blog

Nicolas Hernández Data Scientist

Comentarios

Publicar un comentario

Entradas populares

Real State Data Mining