Optimización de Portafolios con Reglas Prácticas y Limitaciones

Según arXiv q-fin, una investigación reciente propone un nuevo enfoque para la asignación de capital en inversiones, conocido como Optimización Heurística de Portafolios (HPO). Este modelo se construye como una proyección limitada de la solución clásica de Markowitz sobre una serie de reglas prácticas, como el peso igual, la inversa de la volatilidad, el equilibrio de riesgo y variantes de HRP (Hierarchical Risk Parity). La metodología se fundamenta en un principio clave: el rendimiento esperado debe ser proporcional a la exposición al riesgo, lo que permite derivar soluciones cerradas para las principales estrategias heurísticas y revela las transformaciones mediante el complemento de Schur que subyacen en HRP.

El estudio desarrolla un marco que incluye una recursión de Sharpe basada en árboles fijos, una interpolación entre HRP y RA-HRP (Return-Adjusted HRP), condiciones de tangencia, divisiones de riesgo condicional y descomposiciones por caminos o divergencias de Kullback-Leibler. A través de un cálculo de primer orden del Sharpe, se identifica el valor marginal de la información de retorno como alfas nodales frente a HRP, generando un presupuesto de confianza lineal. Se formalizan mapas generales de HPO, se define el defecto implícito de retorno y se demuestra que este defecto equivale al cuadrado de la ineficiencia de Sharpe. Además, se caracteriza el caso de coincidencia entre HPO y modelos basados en árboles mediante razones de masa nodales, y se ofrece una descomposición de sesgo y variabilidad para reglas estimadas.

La propuesta se integra con el aprendizaje por refuerzo en inversiones (RLPO), donde cada mapa de HPO induce una política estacionaria determinista. La versión estática de HPO corresponde a la cara sin fricciones (γ=0) del problema de Bellman, mientras que RA-HRP actúa como una prioridad en la estructura jerárquica. Se establece que la mejora dinámica es viable cuando el valor continuo exceda el defecto miope de HPO más las fricciones. Una identidad de diferencia de rendimiento permite valorar la brecha entre el valor miope y el óptimo, y proporciona un límite de miopía de tipo ε/(1−γ). Los alfas nodales se interpretan como coordenadas del gradiente de política en el actor jerárquico. Así, HPO constituye la capa de optimidad estática, y RLPO, la capa de control dinámico.

Para el lector peruano, esta investigación es especialmente relevante en un contexto de mercados volátiles y acceso limitado a información detallada. Muchas estrategias de inversión en el país se basan en reglas simples, como el peso igual o la asignación inversa a la volatilidad, que a pesar de su simplicidad, pueden ofrecer resultados más robustos que modelos complejos sin datos completos. El enfoque de HPO permite evaluar con precisión el rendimiento esperado bajo condiciones reales, ayudando a inversores individuales y pequeñas instituciones a tomar decisiones más informadas, sin necesidad de modelos matemáticos excesivamente avanzados.