因子分析
参考文献
【聚宽】单因子分析
https://www.joinquant.com/view/community/detail/747da077b0219ff607a68916017139e8?type=4
【聚宽】多因子分析
https://www.joinquant.com/view/community/detail/ae7a9d66145d20732146caef58e4fc95?type=1
【知乎】因子、因子收益率、因子暴露
https://zhuanlan.zhihu.com/p/672456065
什么是因子分析
因子分析是数据分析的一种方法,属于统计学科,用于识别变量之间的相关性模式,将多个变量简化为一组较少的潜在因子或隐藏变量。
而在量化交易中,因子分析也是同样道理。
研究员会从宏观经济数据、公司财报、量价等数据中取出一些作为变量,并用这些变量搭建一个新的因子(因子挖掘);
分析这些因子与股票收益之间的关系,进而预测股票价格以及市场走势。
因子分析早在19世纪便应用到因子投资上面去:
- 第一阶段,单因子:
- 威廉.夏普在1964年发表的资本资产定价模型(CAPM),仅通过市场风险溢价这一风险因子来估算投资组合的预期收益率,通常用表示。
- 第二阶段,多因子:
- 由Eugene Fama和Kenneth French于1992年发表的fama三因子模型,认为投资组合的超额回报率应由3个因子解释
- 市场风险因子
- 市值因子(SMB)
- 账面市值比因子(HML)
- 第三阶段,多因子进阶:
- 2015年被发表的fama五因子模型,改为了由5个因子解释投资组合的超额回报:
- 市场风险因子,即市场回报与无风险利率之差
- 规模因子(SMB),即小公司股票回报与大公司股票回报之差
- 价值因子(HML),即高账面市值比公司股票回报与低账面市值比公司股票回报之差
- 盈利能力因子(RMW),即盈利能力强的公司股票回报与盈利能力弱的公司股票回报之差
- 投资因子(CMA),即投资保守的公司股票回报与投资激进的公司股票回报之差
当然,因子分析模型不止上面这几种,还有:
- Barra风险因子模型
- 视公司特征为因子暴露求解因子收益率
- 中国版的Fama-French三因子模型
- APT多因子模型
- ...
因子框架(有哪些常见因子)
宏观因子
- 宏观因子用以描述股票市场整体的表现情况,是一些基于宏观经济指标构建的因子
- 比如:GDP、利率、债券收益率、经济周期等。
- 但因为宏观因子数据量不足,质量差,时滞长等原因,并没有成为主流因子
结构因子(俗称横截面因子)
又分为:- 行业因子
- 基本面因子(描述股票背后上司公司的基本属性,一般由财务报表计算而出)
- 分红率
- 价值因子
- 市盈率(Price-to-Earnings Ratio)
- 市净率(Price-to-Book Ratio)
- 股息收益率(Dividend Yield)
- 成长因子
- 销售增长率(Sales Growth)
- 盈利增长率(Earnings Growth)
- 资本支出增长率(Capital Expenditure Growth)
- 杠杆因子
- 资本结构(Capital Structure)
- 杠杆比率(Leverage Ratio)
- 债务水平(Debt Level)
- 盈利因子
- 规模因子
- 市值(Market Value)
- 总资产(Total Assets)
- 流通股本(Float Shares)
- 质量因子
- 盈利能力(Profitability)
- 资产负债率(Debt-to-Equity Ratio)
- 资产周转率(Asset Turnover)
- 量价因子(量:成交量;价:开盘价收盘价最高价最低价均价;量价分析均基于这些变量)
- 动量
- 价格动量(Price Momentum)
- 盈利动量(Earnings Momentum)
- 成交量动量(Volume Momentum)
- 波动性
- 历史波动率(Historical Volatility)
- 预期波动率(Implied Volatility)
- 波动率残差(Volatility Residual)
- 动量
市场情绪因子
- 市场情绪指标(Market Sentiment Index)
- 投资者情绪指标(Investor Sentiment Index)
- 新闻情绪指标(News Sentiment Index)
统计因子
- 即通过统计模型求解出的因子,这类因子的特点在于统计上具有较好效果但缺乏实际意义
这些因子都是由投资学的学术界提出的。
这些因子分类是基于对资产回报的影响因素进行研究和归纳得出的。
市面上有各种各样的因子分类方法,百花齐放...
单因子分析-基本步骤
因子分析的基本步骤:
- 选择因子
- 股票数据获取
- 数据处理
- 中性化
- 去极值
- 中位数去极值
- 标准化
- 因子测试
- 因子效果评估
- 特征分析
- 收益分析
- IC分析
- 换手率分析
- 预测能力分析
- 因子优化
- 投资组合创建
- 回测
如何在聚宽平台进行因子分析:https://www.joinquant.com/help/api/help#name:factor
数据处理
特殊值处理(空值、负值、极端值)
【聚宽-空值、负值】:https://www.joinquant.com/view/community/detail/37fda2cdda4ddccb8f70af2c66125fa4
【聚宽-极值】:https://www.joinquant.com/view/community/detail/a64f6fa50b5f329442baacd0370ec977
中性化处理
中性化处理主要是为了消除特定因素(如市值、行业、风格等)对因子选股结果的影响,从而获得较为分散、不偏向于某一特定类型的选股结果。
【聚宽-中性化】:https://www.joinquant.com/view/community/detail/6bb9043bf5b5414dfafc30d228bd182d
标准化处理
“正态标准化”则是一种数据预处理技术,旨在将原始数据转换为符合正态分布(即均值为0,标准差为1)的形式。
具体来说,对于某一因子上的取值,正态标准化会首先计算该因子在所有股票上的均值和标准差,然后将每只股票在该因子上的原始值减去均值,再除以标准差,从而得到标准化后的值。
这样做的目的是为了消除不同因子之间量纲和取值范围的差异,使得不同因子之间具有可比性,同时也便于后续的统计分析和建模。
【聚宽-标准化】:https://www.joinquant.com/view/community/detail/b01e89a1c5ec14cebbcc7f10dd2aaba5
因子效果评估
- 因子IC值检验
- IC值(信息系数) 定义为各个股票T期的因子暴露与T+1期收益率之间的相关系数。
- IC值越大,意味着该因子的暴露度与未来收益率存在越明显的相关性。
- 通过IC时间序列的平均值(IC mean)可以判断因子的有效性,而IC序列的标准差(IC std)则用于判断因子的稳定性。
- 信息比率(IR) 定义为IC序列的均值与其标准差的比值,它反映了因子的有效性。IR值越高,说明因子越有效且稳定
- 因子回归法检验
- 因子分层发检验
- 因子的逻辑性及普适性检验
有效性分析-收益分析
https://www.joinquant.com/view/community/detail/81a097e7518c84a9f318f8731455f8ec
CAPM模型,即资本资产定价理论,认为股票收益能力区分为两部分:独立市场的部分、受市场影响的部分。
Alpha、Beta则是分别用来衡量这两个部分。
Alpha是资产收益中与市场不相关的部分。Alpha的绝对值越大越好。
Beta是市场波动越大,资产价格波动也越大,因此并非越大越好。
假设某只股票Alpha为10%,Beta为2,有没有方法只赚取Alpha部分收益,同时不受市场波动影响?有,方法有下面的几种:
- 建立多空组合对冲。 因为Beta是2,所以可以通过做空2倍股票价值的股指期货来对冲市场波动。当然还需要考虑交易成本。
- 买入beta值为负的资产。 用Beta值为负的股票来与Beta值为正的股票做对冲。
有效性分析-信息分析
https://www.joinquant.com/view/community/detail/91be431aa1053ca01da11fd3312e2bcf
信息系数IC,数学含义是当期的因子值的排序值,和下个调仓周期的因子收益的排序值之间的相关系数。
其实际意义是在衡量因子此时的大小,多大程度上能预测未来的收益。一般IC大于3%则认为因子比较有效。
有效性分析-换手分析
https://www.joinquant.com/view/community/detail/d2ca921c5c4e939853a4e18f5c0932e2
因子暴露度如何计算?
投资组合模型
投资组合模型 = 风险模型 + alpha模型 + 交易成本模型
alpha模型
风险模型
- 样品协方差矩阵
- 基本面因子模型
- 宏观因子模型
- 统计因子模型