数据源与指标选择:够用就好,避免“指标过多看不懂”

为什么“越多越好”是个坑

模型越复杂、指标越多,不一定更准。统计学习的偏差—方差权衡指出:复杂度升高会降低偏差但抬高方差,最终测试误差可能上升;因此需要在简单与复杂之间找最优点。
维度灾难同样会让高维特征空间“变稀疏”,距离度量失效、样本需求爆炸,新增变量常常只带来噪音与过拟合。
在金融研究里,反复在同一数据上筛选“最会赚钱”的规则会引发数据窥探(data snooping)。白(White, 2000)的“现实检验”专门用来识别这种多重检验下的“偶然好策略”。

实践翻译:指标不是越多越好,而是彼此独立、作用互补、来源可信更好。投资百科类资料也直言:不要在一张图上堆多组“同类指标”,容易信息冗余、信号互相打架。

先把“数据源”选对,再谈指标

1)价格与成交:尽量用透明、可复现的参考价格。Coin Metrics 的参考利率/实时参考利率给出公开的方法学、采样与监督机制,可降低单一交易所异常的影响。
2)订单簿与流动性:高频或执行敏感策略,需要看 L1/L2 数据与“按中价±x%”的市场深度、买卖价差等流动性刻面。Kaiko 的研究与产品文档示例了如何用 0.1%/1% 深度、有效点差与多交易所覆盖来刻画真实流动性。
3)链上指标(适用于加密):链上“已实现市值”用“币上次移动价格”计量更真实的经济权重,并有“按主体调整”的口径以减少同主体地址搬运的噪音;官方文档有清晰定义与目录。

要点:写一份你自己的“数据字典”,明确每个字段的来源、频率、时区与缺失值策略,避免“同名不同义”。

少而精的指标框架(四类即可起步)

选指标遵循三条规则:互补性、低冗余、可解释。入门到进阶,可用下列“四类四件套”,每类只留一到两个代表。

1)趋势识别:如均线或 ADX。趋势指标告诉你“该不该做网格/均值回归”,但不直接给出仓位大小。入门资料建议先掌握少数主流指标,再考虑组合。
2)动量/摆动:如 RSI/MACD。注意不要把多组同质动量指标一股脑叠加在同一图表上,避免冗余与“信号看花眼”。
3)波动度量:如 ATR/历史波动率。用于定止损宽度、目标波动缩放,避免“噪音扫损”。(偏差—方差与过拟合背景见上)
4)流动性/成交质量:如点差、盘口深度(±0.1%/±1% 档)、真实成交量。Kaiko 的方法展示了如何用多维指标还原“能不能按预期成交”。

配置建议:一套基础盘面(价格/量)、一条趋势、一条动量、一个波动、一个流动性指标,足矣;其余先关掉,按需再加。

组合要“低相关、真独立”

主动管理的基本定律指出:信息比率 ≈ 技能(IC)× √有效独立次数(广度)。广度的前提是“信息独立”,而不是把多个同源信号堆在一起。
因此,趋势+动量要避免高度同质化;若已经用 RSI,再叠加 StochRSI、TSI 往往只是换壳不增讯。入门资料也强调“用互补而非同类指标”,避免多重共线。

回测与选指标准则:先过“三道门”

1)现实检验(White’s Reality Check):同一数据上比来比去容易“淘到幸运参数”,先用现实检验给整个候选集做显著性门槛。
2)多重检验/因子动物园:横截面研究显示,面对成百上千个“有效因子”,传统 t>2 的标准远远不够,需要提高显著性门槛或使用稳健框架校正。
3)Deflated Sharpe Ratio(DSR):在非正态收益与多重检验下,DSR能对回测夏普“去水分”,减少选择偏误。
配套阅读里还总结了回测“七宗罪”,提醒交叉验证泄露、样本依赖与过拟合的常见坑。

“够用就好”的最小化清单(可直接落地)

  • 数据源最小集:
    价格与成交用公开方法学的参考利率/聚合价;执行评估用 L1/L2 订单簿与 0.1%/1% 深度;如涉链上,再加 1–2 个一线链上指标(如已实现市值)。
  • 指标白名单(最多 5 个):均线或 ADX;RSI 或 MACD;ATR;点差/深度或成交量质量;再加一个“情境指标”(如资金费率或链上活跃度,按策略需要添加,别全部上)。
  • 选择流程:
    先做相关性与稳定性筛选→滚动样本外→现实检验/DSR→只保留通过门槛的少数指标→写入“数据字典与监控板”。

常见误区与修正

  • 把“同类动量”叠三四层:冗余高,不等于更稳。改为“趋势+动量+波动+流动性”的低冗余组合。
  • 只看单一交易所价格:容易被异常撮合/插针干扰。改用参考利率或多源聚合价。
  • 流动性不进模型:忽视点差和深度,纸面胜率到实盘就“化水”。引入 0.1%/1% 深度与点差阈值。
  • 回测只看夏普:多重检验与非正态会把夏普“吹大”,用 DSR 与更严的显著性门槛。

进阶:用“简洁优先”的模型选择思路

模型对比时,遵循科学建模的简洁原则(Occam/AIC/BIC):解释力相近,选参数更少者;这是统计学里被反复证明有效的模型选择基石。

结语

“少即是多”不是口号,而是把复杂度、数据质量与执行成本综合权衡后的理性选择。优先把数据源选干净、把指标配成低冗余组合,再用现实检验与 DSR 做门禁,能在大多数策略里带来更稳的样本外表现。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注