大模型助力数据标注,赋能ETF主题跟踪

尚怡达人 2023-10-19 4795人围观 投资半导体科技经济畜牧业

▍行业&主题型ETF发行规模增加且板块轮动加快,推动主题跟踪需求,但大规模基本面指标体系的构建一直是一个难点。

随着ETF产品开发不断规范,权益类产品不断丰富,同时板块轮动持续加速,以行业和主题为代表的ETF快速发展。截止到2023年9月25日,行业&主题型ETF产品共有463支,合计规模6339亿元,资产规模市场占比达到50%。新的ETF产品不断上市,提供了更多的投资选择,市场对细分主题跟踪和选择的需求也与日俱增。

聚焦海量中观数据资产,借助大模型优势进行智能化数据处理,形成统一的ETF主题跟踪指标体系与方法设计。

大模型具备语言理解与知识蒸馏双重属性,可以对海量经济数据库进行充分挖掘,并实现在同一时间序列下的ETF主题基本面跟踪和比较。面向A股市场所有的行业&主题型ETF产品,我们自主构建了73个可投资的细分主题,结合恒生聚源经济指标库,通过“指标产品初筛+指标回测精选”方法,完成了数十万个原始基本面经济指标对ETF细分主题的映射和定期跟踪信号的生成。

大模型助力数据标注,赋能ETF主题跟踪

指标产品初筛:设计Prompt引导大模型,自动化实现指标产品到细分主题的关系映射。

海量数据处理任务中,通过明确需求、设计Prompt语句、测试检查、批量调用API等步骤,使得GPT3.5尽可能地理解需求并自动化构建指标产品到ETF主题的关系映射。从GPT3.5生成的结果来看,ETF主题对应的平均产品数量达到135个,平均指标数量达到1.2万个。

指标回测精选:借助信号化方法多维度测试指标定期择时效果,通过指标特征与回测结果对基本面指标进行打分排序。

针对每个ETF细分主题,将初筛后的连续指标按照趋势状态(分位数水平、趋势变化、幅度变化、持续变动)转换为离散的趋势信号值。开展对目标ETF产品择时策略的回测,通过胜率、盈亏比等结果进行信号有效性判断,依据打分排名选取Top20指标进行ETF主题跟踪。

投资有效性探索:主题跟踪优势行业包括食品饮料、半导体、畜牧业等,具备高广度信息优势和主题横向对比能力。

我们将精选后的指标聚合为复合信号,并对每个ETF主题分别开展月度择时策略。相对主题ETF代表产品,绝大多数择时策略均有超额收益,策略平均年化超额收益率达到11.04%,平均月度胜率达到63.01%。同时,基于复合信号可实现ETF细分主题的定期跟踪和比较,并形成月度级别的行业&主题型ETF产品推荐。

风险因素:

底层数据产品可持续性不及预期;底层数据准确性不及预期;大模型计算准确度不及预期;科技领域与数据确权监管趋严。

不容错过
Powered By Z-BlogPHP