Despliegue del modelo#

Uno de los principales objetivos de PyMC-Marketing es facilitar el despliegue de sus modelos.

Esto se logra construyendo nuestros modelos sobre ModelBuilder que ofrece una API similar a scikit-learn y facilita el despliegue de modelos PyMC.

Los modelos de PyMC-marketing heredan 2 métodos fáciles de usar: save y load que se pueden utilizar después de que el modelo ha sido ajustado. Todos los modelos se pueden configurar con dos diccionarios estándar: model_config y sampler_config que se serializan durante save y se persisten después de load, permitiendo la reutilización del modelo a través de flujos de trabajo.

Ilustraremos esta funcionalidad con el modelo de ejemplo descrito en el Cuaderno de Ejemplo MMM. Por el bien de la generalidad, omitimos la mayoría de los detalles técnicos aquí.

import arviz as az
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from pymc_extras.prior import Prior

from pymc_marketing.mmm import MMM, GeometricAdstock, LogisticSaturation

az.style.use("arviz-darkgrid")
plt.rcParams["figure.figsize"] = [12, 7]
plt.rcParams["figure.dpi"] = 100

%config InlineBackend.figure_format = "retina"

seed = sum(map(ord, "mmm"))
rng = np.random.default_rng(seed=seed)

Carguemos el conjunto de datos:

url = "https://raw.githubusercontent.com/pymc-labs/pymc-marketing/main/data/mmm_example.csv"
df = pd.read_csv(url, parse_dates=["date_week"])

columns_to_keep = [
    "date_week",
    "y",
    "x1",
    "x2",
    "event_1",
    "event_2",
    "dayofyear",
]

data = df[columns_to_keep].copy()
data["t"] = np.arange(df.shape[0])
data.head()

	date_week	y	x1	dayofyear	t
0	2018-04-02	3984.662237	0.318580	92	0
1	2018-04-09	3762.871794	0.112388	99	1
2	2018-04-16	4466.967388	0.292400	106	2
3	2018-04-23	3864.219373	0.071399	113	3
4	2018-04-30	4441.625278	0.386745	120	4

Pero para nuestro modelo necesitamos un conjunto de datos mucho más pequeño, muchas de las características anteriores estaban contribuyendo a la generación de otras, ahora que nuestra variable objetivo se ha calculado podemos filtrar las columnas que no son necesarias:

Configuración del modelo y muestreo#

Configuración del modelo#

Primero ilustramos el uso de model_config para definir priors personalizados dentro del modelo.

Porque hay potencialmente muchas variables que se pueden configurar, cada modelo proporciona un atributo default_model_config. Esto te permitirá ver qué configuraciones están disponibles por defecto y solo definir las que necesitas cambiar.

Necesitamos crear un modelo ficticio para poder ver el diccionario de configuración.

adstock = GeometricAdstock(l_max=8)
saturation = LogisticSaturation()

dummy_model = MMM(
    date_column="date_week",
    channel_columns=["x1", "x2"],
    adstock=adstock,
    saturation=saturation,
    control_columns=[
        "event_1",
        "event_2",
        "t",
    ],
    yearly_seasonality=2,
)
dummy_model.default_model_config

{'intercept': Prior("Normal", mu=0, sigma=2),
 'likelihood': Prior("Normal", sigma=Prior("HalfNormal", sigma=2)),
 'gamma_control': Prior("Normal", mu=0, sigma=2, dims="control"),
 'gamma_fourier': Prior("Laplace", mu=0, b=1, dims="fourier_mode"),
 'adstock_alpha': Prior("Beta", alpha=1, beta=3, dims="channel"),
 'saturation_lam': Prior("Gamma", alpha=3, beta=1, dims="channel"),
 'saturation_beta': Prior("HalfNormal", sigma=2, dims="channel")}

Podemos cambiar los parámetros que se utilizan en la distribución de cada término. En este caso, simplemente reemplazaremos el sigma por saturation_beta con uno personalizado:

n_channels = 2

total_spend_per_channel = data[["x1", "x2"]].sum(axis=0)
spend_share = total_spend_per_channel / total_spend_per_channel.sum()

# The scale necessary to make a HalfNormal distribution have unit variance
HALFNORMAL_SCALE = 1 / np.sqrt(1 - 2 / np.pi)
prior_sigma = HALFNORMAL_SCALE * n_channels * spend_share.to_numpy()
prior_sigma

array([2.1775326 , 1.14026088])

saturation_beta = Prior("HalfNormal", sigma=prior_sigma, dims="channel")
my_model_config = {"saturation_beta": saturation_beta}

my_model_config

{'saturation_beta': Prior("HalfNormal", sigma=[2.1775326  1.14026088], dims="channel")}

Como se mencionó en el cuaderno original: «Para la especificación previa no hay una respuesta correcta o incorrecta. Todo depende de los datos, el contexto y las suposiciones que estés dispuesto a hacer. Siempre se recomienda hacer un muestreo predictivo previo y un análisis de sensibilidad para verificar el impacto de las priors en el posterior. Saltamos esto aquí por el bien de la simplicidad. Si no estás seguro sobre priors específicos, la clase MMM tiene algunos priors predeterminados que puedes usar como punto de partida.»

Configuración de muestreo#

La segunda característica que podemos personalizar es sampler_config. Similar a model_config, es un diccionario que se guarda y contiene cosas que normalmente pasarías a los kwargs de fit(). No es obligatorio crear tu propio sampler_config. El MMM.sampler_config por defecto está vacío porque los parámetros de muestreo por defecto suelen ser suficientes para comenzar.

dummy_model.default_sampler_config

{}

my_sampler_config = {
    "tune": 1000,
    "draws": 1000,
    "chains": 4,
    "target_accept": 0.91,
    "nuts_sampler": "numpyro",
}

¡Finalmente ensamblamos nuestro modelo!

mmm = MMM(
    model_config=my_model_config,
    sampler_config=my_sampler_config,
    date_column="date_week",
    channel_columns=["x1", "x2"],
    adstock=adstock,
    saturation=saturation,
    control_columns=[
        "event_1",
        "event_2",
        "t",
    ],
    yearly_seasonality=2,
)

Podemos confirmar que se están utilizando nuestras configuraciones.

mmm.model_config["saturation_beta"]

Prior("HalfNormal", sigma=[2.1775326  1.14026088], dims="channel")

mmm.sampler_config

{'tune': 1000,
 'draws': 1000,
 'chains': 4,
 'target_accept': 0.91,
 'nuts_sampler': 'numpyro'}

Otros modelos#

Aunque esta introducción está utilizando MMM, todos los demás modelos de PyMC-Marketing (MMM y CLV) también ofrecen estas funcionalidades.

Resumen#

Las funcionalidades de PyMC-Marketing descritas aquí están destinadas a facilitar el intercambio de modelos entre equipos de ciencia de datos sin exigir un amplio conocimiento técnico de modelado para todos los involucrados. ¡Todavía estamos iterando en nuestra API y nos encantaría recibir más comentarios de nuestros usuarios!

%load_ext watermark
%watermark -n -u -v -iv -w -p pytensor

Last updated: Thu Nov 14 2024

Python implementation: CPython
Python version       : 3.12.4
IPython version      : 8.27.0

pytensor: 2.22.1

numpy     : 1.26.4
matplotlib: 3.9.2
arviz     : 0.17.1
pandas    : 2.2.2

Watermark: 2.4.3