1. 向量与矩阵:从“单挑”到“群殴”¶
在只有一只股票时,我们处理的是标量(单个数字)。但现实中我们面对的是整个市场。
向量(Vector)是什么?¶
想象你有一个投资组合,持有了苹果(AAPL)、微软(MSFT)和谷歌(GOOG)。 你可以把它们的权重写成一个权重向量 $w$: $$w = [0.4, 0.3, 0.3]$$ 这代表你 40% 的钱买苹果,剩下两家各 30%。
矩阵(Matrix)是什么?¶
矩阵就是把多个向量叠在一起。比如这三只股票过去 5 天的日收益率,就是一个 $5 \times 3$ 的矩阵:
| 日期 | AAPL | MSFT | GOOG |
|---|---|---|---|
| Day 1 | 0.01 | -0.01 | 0.02 |
| Day 2 | -0.02 | 0.00 | 0.01 |
| ... | ... | ... | ... |
| Day 5 | -0.01 | 0.04 | 0.05 |
核心直觉:矩阵就是一张 Excel 表,它是量化代码处理数据的“基本单位”。
In [1]:
Copied!
import numpy as np
import pandas as pd
# 用权重向量计算组合收益率
weights = np.array([0.4, 0.3, 0.3]) # 权重向量
returns = np.array([0.01, -0.02, 0.03]) # 三只股票当天的收益率向量
# 组合收益 = 权重1*收益1 + 权重2*收益2 + ...
# 在线性代数里,这就是“点积”(Dot Product)
portfolio_return = np.dot(weights, returns)
print(f"今日组合收益率: {portfolio_return:.4%}")
import numpy as np
import pandas as pd
# 用权重向量计算组合收益率
weights = np.array([0.4, 0.3, 0.3]) # 权重向量
returns = np.array([0.01, -0.02, 0.03]) # 三只股票当天的收益率向量
# 组合收益 = 权重1*收益1 + 权重2*收益2 + ...
# 在线性代数里,这就是“点积”(Dot Product)
portfolio_return = np.dot(weights, returns)
print(f"今日组合收益率: {portfolio_return:.4%}")
今日组合收益率: 0.7000%
In [8]:
Copied!
import matplotlib.pyplot as plt
# 1. 设置系统自带的中文字体(这里使用黑体 SimHei)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 如果你想用微软雅黑,可以改成 ['Microsoft YaHei']
# 2. 解决更换字体后,负号(-)显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False
import matplotlib.pyplot as plt
# 1. 设置系统自带的中文字体(这里使用黑体 SimHei)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 如果你想用微软雅黑,可以改成 ['Microsoft YaHei']
# 2. 解决更换字体后,负号(-)显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False
In [6]:
Copied!
# 模拟 5 天 3 只股票的收益率矩阵
np.random.seed(42)
return_matrix = np.random.normal(0.001, 0.02, (5, 3))
print("收益率矩阵 (5天 x 3只股票):")
print(return_matrix)
# 一次性计算 5 天的组合收益
portfolio_returns_5d = np.dot(return_matrix, weights)
print("\n5天组合收益序列:")
print(portfolio_returns_5d)
# 模拟 5 天 3 只股票的收益率矩阵
np.random.seed(42)
return_matrix = np.random.normal(0.001, 0.02, (5, 3))
print("收益率矩阵 (5天 x 3只股票):")
print(return_matrix)
# 一次性计算 5 天的组合收益
portfolio_returns_5d = np.dot(return_matrix, weights)
print("\n5天组合收益序列:")
print(portfolio_returns_5d)
收益率矩阵 (5天 x 3只股票): [[ 0.01093428 -0.00176529 0.01395377] [ 0.0314606 -0.00368307 -0.00368274] [ 0.03258426 0.01634869 -0.00838949] [ 0.0118512 -0.00826835 -0.0083146 ] [ 0.00583925 -0.0372656 -0.03349836]] 5天组合收益序列: [ 0.00803026 0.0103745 0.01542146 -0.0002344 -0.01889349]
3. 特征值与特征向量:看透市场的“骨架”¶
想象标普 500 指数里的 500 只股票。它们每天乱跳,看起来有 500 种不同的动向。但实际上,大多数股票是跟着“大盘”走的,或者跟着“科技板块”走的。
特征分解(Eigen-decomposition) 就像是给市场照 X 光:
- 特征向量 代表了市场运动的“方向”(比如:全市场上涨、价值股领先、科技股崩盘)。
- 特征值 代表了这个方向有多重要(影响力有多大)。
在量化里,我们常说的 PCA(主成分分析) 就是利用这个原理,把 500 个混乱的维度压缩成少数几个“核心变量”。
In [ ]:
Copied!
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import yfinance as yf
# 获取三只高相关科技股的数据
tickers = ['AAPL', 'MSFT', 'GOOGL']
data = yf.download(tickers, start='2023-01-01', end='2024-01-01', progress=False)['Close']
rets = data.pct_change().dropna() # 移除了nan值的涨跌幅
# 使用 PCA 提取第一个主成分(通常代表“市场共同因子”)
pca = PCA(n_components=1)
rets_pca = pca.fit_transform(rets)
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import yfinance as yf
# 获取三只高相关科技股的数据
tickers = ['AAPL', 'MSFT', 'GOOGL']
data = yf.download(tickers, start='2023-01-01', end='2024-01-01', progress=False)['Close']
rets = data.pct_change().dropna() # 移除了nan值的涨跌幅
# 使用 PCA 提取第一个主成分(通常代表“市场共同因子”)
pca = PCA(n_components=1)
rets_pca = pca.fit_transform(rets)
In [18]:
Copied!
data, data.pct_change(), data.pct_change().dropna, rets_pca.shape
data, data.pct_change(), data.pct_change().dropna, rets_pca.shape
Out[18]:
(Ticker AAPL GOOGL MSFT Date 2023-01-03 123.096016 88.451683 233.452805 2023-01-04 124.365677 87.419487 223.240829 2023-01-05 123.046814 85.553589 216.624512 2023-01-06 127.574203 86.685028 219.177475 2023-01-09 128.095856 87.359932 221.311462 ... ... ... ... 2023-12-22 191.609451 140.428970 368.236603 2023-12-26 191.065140 140.458755 368.315247 2023-12-27 191.164078 139.317368 367.735260 2023-12-28 191.589706 139.178406 368.924805 2023-12-29 190.550446 138.642456 369.671906 [250 rows x 3 columns], Ticker AAPL GOOGL MSFT Date 2023-01-03 NaN NaN NaN 2023-01-04 0.010314 -0.011670 -0.043743 2023-01-05 -0.010605 -0.021344 -0.029638 2023-01-06 0.036794 0.013225 0.011785 2023-01-09 0.004089 0.007786 0.009736 ... ... ... ... 2023-12-22 -0.005548 0.007620 0.002784 2023-12-26 -0.002841 0.000212 0.000214 2023-12-27 0.000518 -0.008126 -0.001575 2023-12-28 0.002227 -0.000997 0.003235 2023-12-29 -0.005424 -0.003851 0.002025 [250 rows x 3 columns], <bound method DataFrame.dropna of Ticker AAPL GOOGL MSFT Date 2023-01-03 NaN NaN NaN 2023-01-04 0.010314 -0.011670 -0.043743 2023-01-05 -0.010605 -0.021344 -0.029638 2023-01-06 0.036794 0.013225 0.011785 2023-01-09 0.004089 0.007786 0.009736 ... ... ... ... 2023-12-22 -0.005548 0.007620 0.002784 2023-12-26 -0.002841 0.000212 0.000214 2023-12-27 0.000518 -0.008126 -0.001575 2023-12-28 0.002227 -0.000997 0.003235 2023-12-29 -0.005424 -0.003851 0.002025 [250 rows x 3 columns]>, (249, 1))
In [13]:
Copied!
plt.figure(figsize=(12, 6))
plt.plot(rets.index, rets.mean(axis=1), label='三只股票平均收益', alpha=0.5)
plt.plot(rets.index, rets_pca, label='第一主成分 (PCA1)', linewidth=2, color='red')
plt.title("PCA 提取的市场共同动力")
plt.legend()
plt.show()
print(f"第一主成分解释了这三只股票变动的 {pca.explained_variance_ratio_[0]:.2%}")
print("这说明这三只股票虽然名字不同,但 80% 以上的时间是在跳同一支舞。")
plt.figure(figsize=(12, 6))
plt.plot(rets.index, rets.mean(axis=1), label='三只股票平均收益', alpha=0.5)
plt.plot(rets.index, rets_pca, label='第一主成分 (PCA1)', linewidth=2, color='red')
plt.title("PCA 提取的市场共同动力")
plt.legend()
plt.show()
print(f"第一主成分解释了这三只股票变动的 {pca.explained_variance_ratio_[0]:.2%}")
print("这说明这三只股票虽然名字不同,但 80% 以上的时间是在跳同一支舞。")
第一主成分解释了这三只股票变动的 70.37% 这说明这三只股票虽然名字不同,但 80% 以上的时间是在跳同一支舞。
🎯 练习¶
- 创建一个 5×5 的随机收益率矩阵,用矩阵乘法计算等权组合(权重各占 20%)每天的收益率。
- 使用
np.linalg.eig()手动计算一个 3×3 协方差矩阵的特征值和特征向量,并与 PCA 结果对比。 - 对标普 500 中的 10 只股票跑 PCA,看第一主成分解释了多少比例的总方差?
下一节 → 01_price_and_return.ipynb (我们将把这些数学应用到真实的价格计算中)