Good Predictors of the Equity Premium

Replication R

Our article comprehensively reexamines the performance of variables that have been suggested by the academic literature to be good predictors of the equity premium. We find that by and large, these models have predicted poorly both in-sample (IS) and out-of-sample (OOS) for 30 years now; these models seem unstable, as diagnosed by their out-of-sample predictions and other statistics; and these models would not have helped an investor with access only to available information to profitably time the market.

Gabriel E. Cabrera gcabrerag.rbind.io
03-23-2021

Introducción

Modelo Predictivo

En la predicción de retornos accionario (stock returns) se suele utilizar el siguiente modelo predictivo:

\[\begin{align} r_{t+1} = \alpha + \beta x_{t} + \varepsilon_{t+1} \end{align}\]

Donde \(r_{t+1}\) es el exceso de retorno o equity premium desde el periodo \(t\) hasta \(t+1\), \(x_t\) es la variable disponible al final de \(t\) usada para predecir, tal como el ratio dividendo-precio (dividend-price), y \(\varepsilon_{t+1}\) es el termino de error con media zero.

El exceso de retorno se calcula como:

\[\begin{align} r_{t} = ln\bigg(\frac{p_t}{p_{t-1}}\bigg) - ln(1 + rf_{t}) \end{align}\]

Donde \(ln\bigg(\frac{p_t}{p_{t-1}}\bigg)\) es el retorno logarítmico (natural) y \(rf_{t}\) es la tasa libre de riesgo (3-month treasury bill).

Datos

El objetivo es replicar la Figura 1 de Welch and Goyal (2008) que corresponde a la diferencia de la suma acumulada del error al cuadrado entre cada modelo tanto in-sample como out-of-sample usando una frecuencia anual. En este ejercicio se trabajará con los siguientes enfoques predictivos:

  1. Benchmark: Promedio histórico del exceso de retorno.

  2. Modelo: Estimación por MCO univariado usando el ratio dividendo-precio (dp) como predictor.

Los datos originales utilizados en el paper se pueden obtener de la página web de Amit Goyal1.

Visualizando Goyal & Welch (2008)

La base de datos predictor_data_2008.xlsx contiene los 14 predictores utilizados en Welch and Goyal (2008) más la variable de interés a predecir, debido que la extensión del archivo es .xlsx se recomiendo utilizar el paquete readxl debido que carga la base de datos como tibble, permitiendo trabajar con el tidyverse sin la necesidad de tener que cohersionar los datos a algún tipo en específico.

Como el interés está en los datos anuales es que se selecciona la hoja (sheet) 3 del archivo.

Una buena práctica es que los nombres de las variables no presenten algún tipo de símbolo, tales como: guión, tílde, signos de exclamación, etc. Sin embargo, es normal encontrarse con este tipo de problemas y para no precuparnos es que se usa la función clean_names() del paquete janitor.

El modelo que se va a usar para predecir es:

\[\begin{align} r_{t+1} = \alpha + \beta dp_{t} + \varepsilon_{t+1} \end{align}\]

Por lo tanto, solo se necesita: el precio del índice (index), los dividendos (d12) y la tasa libre de riesgo (rfree) del periodo \(t\). Una vez seleccionadas las variables se procede a crear las variables: exceso de retorno o equity premium (log_eqp) y el rezago en logarítmo del ratio dividendo-precio (lag_dp). En todo este proceso se decide mantener la variable de la fecha (yyyy) para verificar la muestra cuando se separe en in-sample y out-of-sample.

Show code
dp <- predictors_annual %>%
  select(yyyy, index, d12, rfree) %>%
  mutate(sp_ret = (index + d12) / lag(index, 1),
         log_eqp = log(sp_ret) - log(1 + rfree),
         lag_dp = lag(log(d12) - log(index), 1)) %>%
  select(yyyy, log_eqp, lag_dp) %>%
  filter(yyyy >= 1872, yyyy <= 2005)

Como checkpoint de verificación de lo realizado hasta ahora es que se procede a calcular el \(adjusted-R^2\) in-sample, el que se calcula utilizando toda la muestra.

Este parámetro podemos extraerlo directamente de la regresión lineal.

Para ser consistente con los paquetes utilizados es que se usa broom para extraer el parámetro.

In-Sample Forecasting Result
Dividend-Yield, 1872:2005
Characteristic Beta 95% CI1 p-value
lag_dp 0.05 -0.03, 0.12 0.2
1.24
Adjusted R² 0.49

1 CI = Confidence Interval

El valor obtenido es el mismo que se encuentra en la Tabla 1 de Welch and Goyal (2008) para la variable dividend price ratio entre 1872 y 2005.

Ahora se necesitan los residuos (errores de predicción) in-sample y out-of-sample tanto para el benchmark como el modelo estimado por MCO usando como predictor el rezago de dp. En el caso in-sample los residuos se obtienen de la estimación por MCO usando toda la muestra y para el benchmark basta con restar a los valores observados de la variable dp su media histórica.

En el caso out-of-sample la estrategia de predicción a utilizar es recursive expanding window cuya ventana son 20 años, por ende, este ejercicio parte desde el año 1892.

Las predicciones (benchmark y modelo) en cada iteración out-of-sample será guardada en una matriz cuya filas serán igual a la muestra original pero las primeras 20 observaciones estarán vacias al final del ejercicio.

El objeto p contiene el total de iteraciones out-of-sample, que se obtiene como el total de filas de la muestra menos la ventana inicial (20 años). En cada iteración se obtiene la media del exceso de retorno hasta \(t\), luego al valor observado del exceso de retorno en \(t+1\) se le resta la media histórica obtenida.

Finalmente en la misma iteración se obtiene la predicción del exceso de retorno hasta \(t+1\) utilizando el ratio dividendo-precio hasta \(t\) y luego se le resta al exceso de retorno observado en \(t+1\) la predicción obtenida. Como la estrategia es recursive expanding window, en cada iteración nueva información es agregada.

Todos las series obtenidas son utilizadas para crear un tibble para la visualización.

Tal como lo hace Welch and Goyal (2008), se le aplica un ajuste para comenzar desde 0 en el periodo anterior al inicio del ejercicio out-of-sample que en este caso sería 1891.

La mejora en la predicción se obtiene como la resta entre la suma acumulada de los residuos al cuadrado del benchmark y la suma acumulada de los residuos al cuadrado del modelo, lo anterior se debe realizar tanto para la serie in-sample como out-of-sample. De existir una mejora en la predicción del modelo sobre el benchmark se debería esperar que la predicción out-of-sample esté por encima de la predicción in-sample. Como se puede ver en la Figura 1, la variable dividend price ratio no es un buen predictor del equity premium.

Con un poco de paciencia y usando ggplot2 (wickham2016ggplot2?), se obtiene la siguiente visualización2:

Annual performance of IS insignificant predictors

Figure 1: Annual performance of IS insignificant predictors

Welch, Ivo, and Amit Goyal. 2008. “A Comprehensive Look at the Empirical Performance of Equity Premium Prediction.” The Review of Financial Studies 21 (4): 1455–1508.

  1. http://www.hec.unil.ch/agoyal/↩︎

  2. La paleta de colores es un guiño a los pinguinos de palmer.↩︎

References

Reuse

Text and figures are licensed under Creative Commons Attribution CC BY 4.0. The figures that have been reused from other sources don't fall under this license and can be recognized by a note in their caption: "Figure from ...".

Citation

For attribution, please cite this work as

Cabrera (2021, March 23). Gabriel E. Cabrera Guzman: Good Predictors of the Equity Premium. Retrieved from http://gcabrerag.rbind.io/blog/site/posts/2021-03-23-good-predictors-of-the-equity-premium/

BibTeX citation

@misc{cabrera2021good,
  author = {Cabrera, Gabriel E.},
  title = {Gabriel E. Cabrera Guzman: Good Predictors of the Equity Premium},
  url = {http://gcabrerag.rbind.io/blog/site/posts/2021-03-23-good-predictors-of-the-equity-premium/},
  year = {2021}
}