%pip install yfinance pypfopt --quiet

import yfinance as yf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import scipy.cluster.hierarchy as sch
from scipy.spatial.distance import squareform
from pypfopt import expected_returns, risk_models
from pypfopt.efficient_frontier import EfficientFrontier
from pypfopt.hierarchical_portfolio import HRPOpt
from pypfopt.risk_models import fix_nonpositive_semidefinite
import warnings

warnings.filterwarnings('ignore')

sns.set_theme(style="white", context="paper", font_scale=1.2)
plt.rcParams['figure.dpi'] = 300
plt.rcParams['savefig.dpi'] = 300
plt.rcParams['font.family'] = 'serif'
plt.rcParams['axes.grid'] = True
plt.rcParams['grid.alpha'] = 0.3

RISK_FREE_RATE = 0.02
assets = ['AAPL', 'MSFT', 'GOOGL', 'JPM', 'V', 'JNJ', 'UNH', 'XOM', 'CVX', 'PG', 'WMT', 'HD']
TRAIN_START = '2024-01-01'
TRAIN_END   = '2025-06-30'
TEST_START  = '2025-07-01'
TEST_END    = '2025-07-31'

raw_data = yf.download(assets, start=TRAIN_START, end=TEST_END)['Close']
raw_data = raw_data.ffill().dropna() 

data_train = raw_data.loc[:TRAIN_END]
data_test  = raw_data.loc[TEST_START:]

returns_train = data_train.pct_change().dropna()
returns_test  = data_test.pct_change().dropna()

plt.figure(figsize=(10, 8))
sns.heatmap(returns_train.corr(), annot=True, cmap='coolwarm', fmt=".2f", vmin=-1, vmax=1)
plt.title('Figure 1: In-Sample Asset Correlation Matrix')
plt.tight_layout()
plt.show()

ERROR: Could not find a version that satisfies the requirement pypfopt (from versions: none)
ERROR: No matching distribution found for pypfopt
Note: you may need to restart the kernel to use updated packages.

[*********************100%***********************]  12 of 12 completed

mu_train = expected_returns.mean_historical_return(data_train, compounding=True)
S_train = risk_models.sample_cov(data_train)

cond_number_orig = np.linalg.cond(S_train)
print(f"Convergence Diagnostic - Original Covariance Condition Number: {cond_number_orig:.2f}")

ef_baseline = EfficientFrontier(mu_train, S_train, weight_bounds=(0.0, 0.15))
try:
    ef_baseline.max_sharpe(risk_free_rate=RISK_FREE_RATE)
    weights_baseline = ef_baseline.clean_weights()
except Exception as e:
    ef_baseline.min_volatility()
    weights_baseline = ef_baseline.clean_weights()

df_weights = pd.DataFrame.from_dict(weights_baseline, orient='index', columns=['Baseline MVO'])

plt.figure(figsize=(10, 5))
df_weights['Baseline MVO'].sort_values(ascending=False).plot(kind='bar', color='steelblue')
plt.axhline(0.15, color='red', linestyle='--')
plt.title('Figure 2: Baseline MVO Weight Allocation')
plt.ylabel('Allocation Proportion')
plt.tight_layout()
plt.show()

Convergence Diagnostic - Original Covariance Condition Number: 27.73

def denoise_covariance_robust(cov_matrix, observations, assets_count):
    std_devs = np.sqrt(np.diag(cov_matrix))
    corr_matrix = cov_matrix / np.outer(std_devs, std_devs)
    
    eigen_values, eigen_vectors = np.linalg.eigh(corr_matrix)
    sort_indices = eigen_values.argsort()[::-1]
    eigen_values, eigen_vectors = eigen_values[sort_indices], eigen_vectors[:, sort_indices]
    
    q = observations / float(assets_count)
    e_max = (1 + np.sqrt(1. / q)) ** 2
    
    n_factors = eigen_values[eigen_values > e_max].shape[0]
    denoised_eigen_values = np.copy(eigen_values)
    
    if n_factors < assets_count:
        noise_mean = np.mean(denoised_eigen_values[n_factors:])
        denoised_eigen_values[n_factors:] = noise_mean
        
    denoised_corr = eigen_vectors.dot(np.diag(denoised_eigen_values)).dot(eigen_vectors.T)
    np.fill_diagonal(denoised_corr, 1.0)
    
    denoised_cov = denoised_corr * np.outer(std_devs, std_devs)
    denoised_cov = fix_nonpositive_semidefinite(denoised_cov)
    
    return pd.DataFrame(denoised_cov, index=cov_matrix.index, columns=cov_matrix.columns), eigen_values, denoised_eigen_values, e_max

T, N = returns_train.shape
S_denoised, orig_evals, den_evals, mp_threshold = denoise_covariance_robust(S_train, T, N)

cond_number_denoised = np.linalg.cond(S_denoised)
print(f"Convergence Diagnostic - Denoised Covariance Condition Number: {cond_number_denoised:.2f}")

ef_denoised = EfficientFrontier(mu_train, S_denoised, weight_bounds=(0.0, 0.15))
ef_denoised.max_sharpe(risk_free_rate=RISK_FREE_RATE)
df_weights['Denoised MVO'] = pd.Series(ef_denoised.clean_weights())

plt.figure(figsize=(10, 5))
plt.plot(range(1, N+1), orig_evals, 'o-', label='Original Eigenvalues', color='black')
plt.plot(range(1, N+1), den_evals, 's--', label='Denoised Eigenvalues', color='red')
plt.axhline(mp_threshold, color='blue', linestyle=':')
plt.title('Figure 3: Eigenvalue Spectrum and Marcenko-Pastur Threshold')
plt.xlabel('Eigenvalue Rank')
plt.ylabel('Eigenvalue Magnitude')
plt.legend()
plt.tight_layout()
plt.show()

Convergence Diagnostic - Denoised Covariance Condition Number: 13.34

hrp_standard = HRPOpt(returns_train)
hrp_standard.optimize()
df_weights['Standard HRP'] = pd.Series(hrp_standard.clean_weights())

hrp_denoised = HRPOpt(returns_train, cov_matrix=S_denoised)
hrp_denoised.optimize()
df_weights['Denoised HRP'] = pd.Series(hrp_denoised.clean_weights())

corr_dist = np.sqrt(0.5 * (1 - returns_train.corr()))
link = sch.linkage(squareform(corr_dist), 'single')

plt.figure(figsize=(10, 5))
sch.dendrogram(link, labels=returns_train.columns, leaf_rotation=90)
plt.title('Figure 4: Hierarchical Clustering Dendrogram (Asset Relationships)')
plt.ylabel('Distance')
plt.tight_layout()
plt.show()

df_weights.plot(kind='bar', figsize=(14, 6), colormap='Set1', edgecolor='black')
plt.title('Figure 5: Optimal Portfolio Weight Allocations Across Models')
plt.ylabel('Allocation Proportion')
plt.axhline(0.15, color='black', linestyle='--')
plt.legend(loc='upper right')
plt.tight_layout()
plt.show()

oos_returns = pd.DataFrame({
    'Baseline MVO': returns_test.dot(df_weights['Baseline MVO']),
    'Denoised MVO': returns_test.dot(df_weights['Denoised MVO']),
    'Standard HRP': returns_test.dot(df_weights['Standard HRP']),
    'Denoised HRP': returns_test.dot(df_weights['Denoised HRP'])
})

benchmark_returns = returns_test.mean(axis=1)

def compute_institutional_metrics(returns_series, benchmark_series, rf_rate=RISK_FREE_RATE):
    days = 252
    ann_ret = returns_series.mean() * days
    ann_vol = returns_series.std() * np.sqrt(days)
    sharpe = (ann_ret - rf_rate) / ann_vol if ann_vol > 0 else 0
    
    downside = returns_series[returns_series < 0]
    down_vol = downside.std() * np.sqrt(days)
    sortino = (ann_ret - rf_rate) / down_vol if down_vol > 0 else 0
    
    cum_rets = (1 + returns_series).cumprod()
    peak = cum_rets.cummax()
    dd = (cum_rets - peak) / peak
    max_dd = dd.min()
    calmar = ann_ret / abs(max_dd) if max_dd < 0 else 0
    
    skew = returns_series.skew()
    kurt = returns_series.kurtosis()
    
    var_95 = np.percentile(returns_series, 5)
    cvar_95 = returns_series[returns_series <= var_95].mean()
    
    active_returns = returns_series - benchmark_series
    tracking_error = active_returns.std() * np.sqrt(days)
    info_ratio = (ann_ret - (benchmark_series.mean() * days)) / tracking_error if tracking_error > 0 else 0
    
    return {
        'Ann. Return (%)': ann_ret * 100,
        'Ann. Volatility (%)': ann_vol * 100,
        'Sharpe Ratio': sharpe,
        'Sortino Ratio': sortino,
        'Max Drawdown (%)': max_dd * 100,
        'Calmar Ratio': calmar,
        'Skewness': skew,
        'Kurtosis': kurt,
        'VaR 95% (%)': var_95 * 100,
        'CVaR 95% (%)': cvar_95 * 100,
        'Tracking Error (%)': tracking_error * 100,
        'Information Ratio': info_ratio
    }

metrics_df = pd.DataFrame({col: compute_institutional_metrics(oos_returns[col], benchmark_returns) for col in oos_returns.columns}).T
print(metrics_df.round(4))

fig, axes = plt.subplots(2, 2, figsize=(18, 12))
plt.suptitle('Figure 6: Out-Of-Sample Performance Evaluation', fontweight='bold', fontsize=16)

oos_cum = (1 + oos_returns).cumprod()
for col in oos_cum.columns:
    lw = 3.0 if 'Denoised HRP' in col else 1.5
    ls = '--' if 'Baseline' in col else '-'
    axes[0, 0].plot(oos_cum.index, oos_cum[col], label=col, linewidth=lw, linestyle=ls)
axes[0, 0].set_title('Cumulative Wealth Trajectory')
axes[0, 0].set_ylabel('Wealth (Base=1.0)')
axes[0, 0].legend()

for col in oos_returns.columns:
    cum = (1 + oos_returns[col]).cumprod()
    dd = (cum - cum.cummax()) / cum.cummax() * 100
    lw = 2.5 if 'Denoised HRP' in col else 1.0
    axes[0, 1].plot(dd.index, dd, label=col, linewidth=lw)
axes[0, 1].fill_between(dd.index, 0, dd.min(), color='red', alpha=0.05)
axes[0, 1].set_title('Underwater Plot (Drawdown Analysis)')
axes[0, 1].set_ylabel('Drawdown (%)')
axes[0, 1].legend()

for col in oos_returns.columns:
    sns.kdeplot(oos_returns[col] * 100, ax=axes[1, 0], label=col, fill=True if 'Denoised HRP' in col else False)
axes[1, 0].set_title('OOS Return Distribution (KDE)')
axes[1, 0].set_xlabel('Daily Return (%)')
axes[1, 0].legend()

rolling_vol = oos_returns.rolling(window=5).std() * np.sqrt(252) * 100
for col in rolling_vol.columns:
    lw = 2.5 if 'Denoised HRP' in col else 1.0
    axes[1, 1].plot(rolling_vol.index, rolling_vol[col], label=col, linewidth=lw)
axes[1, 1].set_title('Rolling 5-Day Annualized Volatility')
axes[1, 1].set_ylabel('Volatility (%)')
axes[1, 1].legend()

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

plt.figure(figsize=(12, 5))
active_returns_df = oos_returns.sub(benchmark_returns, axis=0)
for col in active_returns_df.columns:
    lw = 2.5 if 'Denoised HRP' in col else 1.0
    plt.plot(active_returns_df.index, active_returns_df[col] * 100, label=col, linewidth=lw)
plt.axhline(0, color='black', linestyle='--')
plt.title('Figure 7: Out-of-Sample Active Returns (Residuals vs Equal-Weight Benchmark)')
plt.ylabel('Active Return (%)')
plt.legend()
plt.tight_layout()
plt.show()

              Ann. Return (%)  Ann. Volatility (%)  Sharpe Ratio  \
Baseline MVO          25.0850               7.9102        2.9184   
Denoised MVO          26.1127               8.0356        3.0007   
Standard HRP          12.0726               8.9623        1.1239   
Denoised HRP          12.0726               8.9623        1.1239   

              Sortino Ratio  Max Drawdown (%)  Calmar Ratio  Skewness  \
Baseline MVO         5.2525           -1.8685       13.4249   -0.4779   
Denoised MVO         5.0799           -1.8743       13.9322   -0.5204   
Standard HRP         1.9686           -1.9692        6.1308    0.1653   
Denoised HRP         1.9686           -1.9692        6.1308    0.1653   

              Kurtosis  VaR 95% (%)  CVaR 95% (%)  Tracking Error (%)  \
Baseline MVO   -0.2351      -0.5246       -1.0267              5.6667   
Denoised MVO   -0.0960      -0.5221       -1.0671              5.8386   
Standard HRP   -0.2172      -0.8311       -0.9706              3.2623   
Denoised HRP   -0.2172      -0.8311       -0.9706              3.2623   

              Information Ratio  
Baseline MVO             2.7142  
Denoised MVO             2.8103  
Standard HRP             0.7259  
Denoised HRP             0.7259

Introduction¶

Step 1: Mean Variance optimization¶

Step 2¶

Step 3: Removing noise and grouping¶

Steps 4 and 5: Out-of-sample test¶

Conclusion¶

References¶