0.0 量化交易的数学：线性代数¶

为什么我要学这个？

很多量化交易的新手会觉得指标（RSI, MACD）就是全部。但当你开始处理一篮子股票（组合管理）或者想理解市场背后的力量（因子分析）时，你会发现指标不够用了。

线性代数不是为了让你算难题，它是为了让你“批量处理”信息。

学习目标¶

理解向量（Vector）和矩阵（Matrix）在交易中的真实含义
掌握矩阵运算在收益率计算和权重调整中的应用
直观理解主成分分析（PCA）如何帮我们看清市场

1. 向量与矩阵：从“单挑”到“群殴”¶

在只有一只股票时，我们处理的是标量（单个数字）。但现实中我们面对的是整个市场。

向量（Vector）是什么？¶

想象你有一个投资组合，持有了苹果（AAPL）、微软（MSFT）和谷歌（GOOG）。你可以把它们的权重写成一个权重向量 $w$： $$w = [0.4, 0.3, 0.3]$$ 这代表你 40% 的钱买苹果，剩下两家各 30%。

矩阵（Matrix）是什么？¶

矩阵就是把多个向量叠在一起。比如这三只股票过去 5 天的日收益率，就是一个 $5 \times 3$ 的矩阵：

日期	AAPL	MSFT	GOOG
Day 1	0.01	-0.01	0.02
Day 2	-0.02	0.00	0.01
...	...	...	...
Day 5	-0.01	0.04	0.05

核心直觉：矩阵就是一张 Excel 表，它是量化代码处理数据的“基本单位”。

In [1]:

Copied!





import numpy as np
import pandas as pd

# 用权重向量计算组合收益率
weights = np.array([0.4, 0.3, 0.3]) # 权重向量
returns = np.array([0.01, -0.02, 0.03]) # 三只股票当天的收益率向量

# 组合收益 = 权重1*收益1 + 权重2*收益2 + ...
# 在线性代数里，这就是“点积”（Dot Product）
portfolio_return = np.dot(weights, returns)

print(f"今日组合收益率: {portfolio_return:.4%}")
import numpy as np
import pandas as pd

# 用权重向量计算组合收益率
weights = np.array([0.4, 0.3, 0.3]) # 权重向量
returns = np.array([0.01, -0.02, 0.03]) # 三只股票当天的收益率向量

# 组合收益 = 权重1*收益1 + 权重2*收益2 + ...
# 在线性代数里，这就是“点积”（Dot Product）
portfolio_return = np.dot(weights, returns)

print(f"今日组合收益率: {portfolio_return:.4%}")

今日组合收益率: 0.7000%

2. 矩阵乘法的奥秘：批量计算收益¶

如果你有 1000 天的数据和 100 只股票，你想计算这 1000 天组合每天的收益。你不需要写 for 循环，只需要一次矩阵乘法。

$$R_{portfolio} = R_{matrix} \times w$$

矩阵乘法的本质是：重新线性组合。它把原始的股票收益，按照你的权重重新“揉”成了一个新的时间序列。

为什么我们要强调不写循环？¶

速度：Python 的 for 循环很慢，但 NumPy 的矩阵运算背后是 C 语言优化的，速度快百倍。
清晰：一行矩阵运算能代替几十行逻辑代码。

In [8]:

Copied!

import matplotlib.pyplot as plt

# 1. 设置系统自带的中文字体（这里使用黑体 SimHei）
plt.rcParams['font.sans-serif'] = ['SimHei']  # 如果你想用微软雅黑，可以改成 ['Microsoft YaHei']

# 2. 解决更换字体后，负号（-）显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False
import matplotlib.pyplot as plt

# 1. 设置系统自带的中文字体（这里使用黑体 SimHei）
plt.rcParams['font.sans-serif'] = ['SimHei']  # 如果你想用微软雅黑，可以改成 ['Microsoft YaHei']

# 2. 解决更换字体后，负号（-）显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False

In [6]:

Copied!





# 模拟 5 天 3 只股票的收益率矩阵
np.random.seed(42)
return_matrix = np.random.normal(0.001, 0.02, (5, 3))
print("收益率矩阵 (5天 x 3只股票):")
print(return_matrix)

# 一次性计算 5 天的组合收益
portfolio_returns_5d = np.dot(return_matrix, weights)
print("\n5天组合收益序列:")
print(portfolio_returns_5d)
# 模拟 5 天 3 只股票的收益率矩阵
np.random.seed(42)
return_matrix = np.random.normal(0.001, 0.02, (5, 3))
print("收益率矩阵 (5天 x 3只股票):")
print(return_matrix)

# 一次性计算 5 天的组合收益
portfolio_returns_5d = np.dot(return_matrix, weights)
print("\n5天组合收益序列:")
print(portfolio_returns_5d)

收益率矩阵 (5天 x 3只股票):
[[ 0.01093428 -0.00176529  0.01395377]
 [ 0.0314606  -0.00368307 -0.00368274]
 [ 0.03258426  0.01634869 -0.00838949]
 [ 0.0118512  -0.00826835 -0.0083146 ]
 [ 0.00583925 -0.0372656  -0.03349836]]

5天组合收益序列:
[ 0.00803026  0.0103745   0.01542146 -0.0002344  -0.01889349]

3. 特征值与特征向量：看透市场的“骨架”¶

想象标普 500 指数里的 500 只股票。它们每天乱跳，看起来有 500 种不同的动向。但实际上，大多数股票是跟着“大盘”走的，或者跟着“科技板块”走的。

特征分解（Eigen-decomposition） 就像是给市场照 X 光：

特征向量 代表了市场运动的“方向”（比如：全市场上涨、价值股领先、科技股崩盘）。
特征值 代表了这个方向有多重要（影响力有多大）。

在量化里，我们常说的 PCA（主成分分析） 就是利用这个原理，把 500 个混乱的维度压缩成少数几个“核心变量”。

In [ ]:

Copied!





import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import yfinance as yf

# 获取三只高相关科技股的数据
tickers = ['AAPL', 'MSFT', 'GOOGL']
data = yf.download(tickers, start='2023-01-01', end='2024-01-01', progress=False)['Close']
rets = data.pct_change().dropna() # 移除了nan值的涨跌幅

# 使用 PCA 提取第一个主成分（通常代表“市场共同因子”）
pca = PCA(n_components=1)
rets_pca = pca.fit_transform(rets)
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import yfinance as yf

# 获取三只高相关科技股的数据
tickers = ['AAPL', 'MSFT', 'GOOGL']
data = yf.download(tickers, start='2023-01-01', end='2024-01-01', progress=False)['Close']
rets = data.pct_change().dropna() # 移除了nan值的涨跌幅

# 使用 PCA 提取第一个主成分（通常代表“市场共同因子”）
pca = PCA(n_components=1)
rets_pca = pca.fit_transform(rets)

In [18]:

Copied!

data, data.pct_change(), data.pct_change().dropna, rets_pca.shape
data, data.pct_change(), data.pct_change().dropna, rets_pca.shape

Out[18]:

(Ticker            AAPL       GOOGL        MSFT
 Date                                          
 2023-01-03  123.096016   88.451683  233.452805
 2023-01-04  124.365677   87.419487  223.240829
 2023-01-05  123.046814   85.553589  216.624512
 2023-01-06  127.574203   86.685028  219.177475
 2023-01-09  128.095856   87.359932  221.311462
 ...                ...         ...         ...
 2023-12-22  191.609451  140.428970  368.236603
 2023-12-26  191.065140  140.458755  368.315247
 2023-12-27  191.164078  139.317368  367.735260
 2023-12-28  191.589706  139.178406  368.924805
 2023-12-29  190.550446  138.642456  369.671906
 
 [250 rows x 3 columns],
 Ticker          AAPL     GOOGL      MSFT
 Date                                    
 2023-01-03       NaN       NaN       NaN
 2023-01-04  0.010314 -0.011670 -0.043743
 2023-01-05 -0.010605 -0.021344 -0.029638
 2023-01-06  0.036794  0.013225  0.011785
 2023-01-09  0.004089  0.007786  0.009736
 ...              ...       ...       ...
 2023-12-22 -0.005548  0.007620  0.002784
 2023-12-26 -0.002841  0.000212  0.000214
 2023-12-27  0.000518 -0.008126 -0.001575
 2023-12-28  0.002227 -0.000997  0.003235
 2023-12-29 -0.005424 -0.003851  0.002025
 
 [250 rows x 3 columns],
 <bound method DataFrame.dropna of Ticker          AAPL     GOOGL      MSFT
 Date                                    
 2023-01-03       NaN       NaN       NaN
 2023-01-04  0.010314 -0.011670 -0.043743
 2023-01-05 -0.010605 -0.021344 -0.029638
 2023-01-06  0.036794  0.013225  0.011785
 2023-01-09  0.004089  0.007786  0.009736
 ...              ...       ...       ...
 2023-12-22 -0.005548  0.007620  0.002784
 2023-12-26 -0.002841  0.000212  0.000214
 2023-12-27  0.000518 -0.008126 -0.001575
 2023-12-28  0.002227 -0.000997  0.003235
 2023-12-29 -0.005424 -0.003851  0.002025
 
 [250 rows x 3 columns]>,
 (249, 1))

In [13]:

Copied!





plt.figure(figsize=(12, 6))
plt.plot(rets.index, rets.mean(axis=1), label='三只股票平均收益', alpha=0.5)
plt.plot(rets.index, rets_pca, label='第一主成分 (PCA1)', linewidth=2, color='red')
plt.title("PCA 提取的市场共同动力")
plt.legend()
plt.show()

print(f"第一主成分解释了这三只股票变动的 {pca.explained_variance_ratio_[0]:.2%}")
print("这说明这三只股票虽然名字不同，但 80% 以上的时间是在跳同一支舞。")
plt.figure(figsize=(12, 6))
plt.plot(rets.index, rets.mean(axis=1), label='三只股票平均收益', alpha=0.5)
plt.plot(rets.index, rets_pca, label='第一主成分 (PCA1)', linewidth=2, color='red')
plt.title("PCA 提取的市场共同动力")
plt.legend()
plt.show()

print(f"第一主成分解释了这三只股票变动的 {pca.explained_variance_ratio_[0]:.2%}")
print("这说明这三只股票虽然名字不同，但 80% 以上的时间是在跳同一支舞。")

No description has been provided for this image

第一主成分解释了这三只股票变动的 70.37%
这说明这三只股票虽然名字不同，但 80% 以上的时间是在跳同一支舞。

🎯 练习¶

创建一个 5×5 的随机收益率矩阵，用矩阵乘法计算等权组合（权重各占 20%）每天的收益率。
使用 np.linalg.eig() 手动计算一个 3×3 协方差矩阵的特征值和特征向量，并与 PCA 结果对比。
对标普 500 中的 10 只股票跑 PCA，看第一主成分解释了多少比例的总方差？

下一节 → 01_price_and_return.ipynb （我们将把这些数学应用到真实的价格计算中）