grabando ok bueno la primera etapa del proceso es la importación de las
librerías, pues las librerías que se usan son las básicas para
entrenamiento de modelos de machine learning en python, es decir scikit
learn, matplolive, pandas, numpy y seaborn, usamos algunas más como
pluna y pickle y adicionalmente vamos a importar un archivo llamado
transformaciones, transformaciones es un archivo de python que contiene
varias funciones útiles para todo el entrenamiento y toda la inferencia del
modelo, entonces si abrimos este archivo de transformaciones.py vamos a
encontrar las siguientes funciones, la primera función se llama new variables
menor, es una función que crea variables para el modelo menor
además de crea variables y hace algunas imputaciones y además de eso cambia
formatos de variables de fecha, la segunda función es una función llamada
agregar y en bajo tabla y en bajo criterio y es una
una que una función para sumar la tabla del criterio experto de la quincena
actual con la tabla del criterio experto acumulada, también está la
función para predecir cuando se tiene un conjunto de 10 modelos, ésta se llama
rf-predict y básicamente lo que hace es predecir cuando uno tiene los
modelos del modelo mayor, tiene en realidad se componen 10 modelos de
clasificación y para decidir si un cliente es clasificado como
captador o no, se tiene que elegir una regla para decidir si
cuántos de los modelos es necesario que estén de acuerdo para que un cliente
sea clasificado como captador, además también pues tiene una regla para
calcular el pret-proba que básicamente es promediando los pret-proba de todos
los de todos los clientes
después de
después de esta importación de librerías
lo que sigue es la lectura de los metadatos, ésta es la única parte del
proceso en la que
pues hay que modificar datos de la ejecución, se hace, bueno básicamente
son tres seis ocho ocho metadatos que corresponden a la quincena actual
que siempre se escribe como 1q, 2q con la q mayúscula, el mes en tres letras,
hun, hul, dek, n y el año solo los últimos dos dígitos es decir 23
en el ejemplo particular estamos en 2q, hun, 23
el siguiente metadato es q y un bajo ant que es la quincena anterior que se
calcula usando una función que está en transformaciones entonces en realidad
ahí no se tiene que modificar nada, luego está el tamaño de la muestra, el
tamaño de la muestra es una variable que para el entrenamiento de los modelos
del modelo mayor o de los modelos mayores se hacen muestreos, distintos
muestreos para el entrenamiento porque no se toman todos los datos debido a que
hay muy pocos datos de captadores entonces para que el modelo quede lo
más balanceado posible entonces se toma una muestra
esa muestra óptimamente es de digamos se puede bajar hasta los 21 mil datos
de tal manera que el balance es el mayor es la muestra más pequeña para que ya
balance de para adelante cualquier valor de la muestra pues es apto
entonces estamos estrellando con 370 mil datos en este momento pero eso se
puede modificar hasta los 21 mil, luego viene la variable de límite guión bajo
ant que es cuántos modelos en la predicción del modelo mayor tienen que
estar de acuerdo para que un cliente sea clasificado como captador realmente ese
parámetro está en 10, luego está la variable límite que es lo mismo que el
anterior pero para el modelo actual para el modelo que se entrene actualmente
luego está la variable muestreo guión bajo final que es como se hace un
muestreo de todos los de todos los
digamos del resultado del modelo y ese muestreo se hace porque las personas que
hacen su el análisis posterior pues tienen una capacidad limitada para
analizar entonces ese esa capacidad actualmente es de 50 registros entonces
ese muestreo que se hace con una digamos que la probabilidad de aparición en esa
muestra es proporcional a un score es actualmente 50 trials es otra de la
siguiente variable trials es básicamente el número de intentos que
se hacen para tunear hiperparámetros usando la librería job tuna en este caso
son 50 y el file guión bajo pat es la dirección o el nombre del archivo en
donde está la información de que envía a ch en en el mes del mes en curso no si
no hay del mes en curso pues del mes que haya información
el siguiente paso es la carga de datos la carga de datos implica importación de
modelos tanto de la quincena anterior como la quincena actual
y y adicionalmente a eso implica cargar datos de la quincena anterior y la
quincena actual no es decir tanto datos como modelos entonces
pues los modelos que se cargan son el modelo que se llama random guión vas guión bajo mayor
guión bajo el nombre de la quincena anterior si la quincena anterior es 1q 23 pues será así el
nombre del archivo y se encuentra alojado en la carpeta del archivo la carpeta de la quincena
anterior lo mismo para el modelo menor random forrest guión bajo menor guión bajo quincena
la quincena anterior punto pk l estos archivos donde están los modelos se encuentran alojados
en la carpeta del mes anterior
- Obtener enlace
- X
- Correo electrónico
- Otras aplicaciones
Comentarios
Publicar un comentario