自从ChatGPT问世后,人类就想到了用它来分析预测各种走势。
天气、流行病、股价走势,都在被给予厚望的清单里……
(资料图片)
上月,一个名为The GPT Portfolio的账号在推特迅速走红。该账号此前宣布,将借助ChatGPT进行实盘投资。
根据他们的研究,ChatGPT 不仅能够预测股市价格走势,还能产生超过 500% 的回报!
而在5月26日,摩根大通也宣布正在研发名为“IndexGPT”的金融服务工具,利用云计算和人工智能进行证券的分析和选择,为客户提供智能化和个性化的投资建议。
一时间,似乎所有人都嗅到了GPT所散发出的财富的味道……
那么,AI+金融的组合,真有那么强大么?
今天,让我们不妨先将目光聚焦回国内,分析度小满最近发布的金融大模型——轩辕,看看是否能在该大模型身上,找到这些问题的答案。
01 数据越大越好?
上月月底,度小满正式发布基于BLOOM-176B研发的轩辕大模型,是一个通用+金融领域的千亿级参数大模型。其数据集不但包含了各种通用内容,还包含了诸如金融研报、股票、基金、银行、保险等方向的专业知识。
在金融场景中的任务评测中,效果相较于通用大模型大幅提升,表现出金融领域的独特优势。
在这里,我们就试着从金融数据、金融新闻理解、市场舆情分析这三个方面,对轩辕大模型在金融领域的表现,进行一番剖析。
首先来看金融数据方面。
众所周知,对于垂直领域来说,大模型所具有的专业数据越多、质量越高,其模型表现就越好。
那么在这方面,轩辕是否积累了足够的金融数据呢?
一个不可否认的事实是:尽管百度这些年一直在尽力在金融领域布局,其麾下的度小满涵盖了消费金融、支付、互联网理财、互联网保险、互联网证券等多个板块,但从体量上来说,其掌握的金融数据,仍旧很难以与国内的一些庞大的金融集团,例如中投相比。
中投在国内控参股10多家金融机构,掌控万亿资产,其投资和涉及的行业包括了信息科技、金融、弹性消费品、医疗健康等领域,其中信息科技占比最高,为22.76%。此外,在工业、通讯服务、非弹性消费品、原材料等领域也有一定分布。
而相较之下,度小满的金融服务,则更多地集中于互联网金融领域。
既然没有数据方面的绝对优势,度小满又怎么有信心问鼎国内首个金融大模型呢?
原因就在于,在垂直领域,专有数据的运用,其实远比追求“绝对数据”的优势要重要。
ARK(方舟基金)创投联合负责人及分析师Will Summerlin在谈到这点时,曾说到:“对于想抓住这次AI革命的公司来说,运用好自身的专有数据集,能让他们快速针对自己的领域来训练或微调模型。”
在此前百度搭建的金融生态中,出现了面向大众的消费信贷服务品牌---有钱花、理财平台--度小满理财,以及支付平台——度小满钱包。
这些APP中积累的信息,构成了百度用来训练或调整模型的大量数据,基于这些数据,百度可以形成一套自身专有的反馈循环系统,进而逐渐形成对产品的洞察力。从而使其能不断针对客户数据优化模型,让模型随着时间推移越来越好。
更重要的是,除了拥有数据之外,将数据与AI相结合的能力,也是构建金融大模型不可或缺的一步。
早在2018年,创立之初,度小满就看到了“NLP+金融”的潜力,开始进行相应的产业布局。
而当时不仅全世界专注做NLP公司很少,成立专门的金融科技NLP团队的更是鲜见。
经过数年的钻研,2021年,在微软举办的MS MARCO 比赛中的文档排序Document Ranking(文档排序)任务中,度小满的AI-NLP团队排名第一并刷新纪录。
2022年,轩辕 (XuanYuan) 预训练模型,也在中文语言理解领域最具权威性的测评基准之一CLUE分类任务中排名第一。
于是,放眼国内,在金融领域拥有庞大数据的,在NLP上却比不过度小满;而在NPL上有所建树的,却又很少能搭建出度小满那样专有的金融生态。
如此一来,轩辕便确立了自身在“金融大模型”这一生态位中的独特优势。
02 AI“索罗斯”?
除了金融数据外,轩辕大模型的另一个重要的能力,就是其对金融事件、新闻的解读能力。
很多投资者,都希望借助大模型的能力,来分析金融时事背后的原因。
毕竟,索罗斯这样的金融大鳄,90年代正是凭借对欧洲舆情、时局的准确判断,做出了做空英镑,做多马克的决定,并一举战胜了英格兰银行。
而这种阅读并理解时事,乃至解读市场舆情的能力,则主要是由大模型的自然语言处理能力(NLP)决定的。因为时事解读,舆情分析的主要任务,是对大量的文本数据进行语义分析和情感分析。
在NPL方面,轩辕大模型的一个最大特点,就是“化大为小”,“化通为专”。
具体来说,轩辕通过将开放领域学到的知识迁移到下游任务,不仅改善了低资源任务数据相对不足的问题,也提高了自身的泛化能力和鲁棒性。从而更好地适应不同领域和场景的阅读和分析需求。
然而,这种用大量通用数据预训练一个基础模型,再用特定任务数据微调一个下游模型的做法,以往存在两个缺点:
一是预训练和微调的数据可能存在不一致或不匹配的问题,导致模型难以适应新任务;
二是微调的数据可能存在不足或不平衡的问题,导致模型难以学习到有效的特征。
对此,轩辕大模型在引入金融任务数据训练的同时,还融合了不同粒度不同层级的交互信息,从而改进了传统训练模式。
具体来说,轩辕采用了多阶段的训练策略,先从通用大规模的数据逐渐迁移到小规模的特定业务以及特定任务,然后通过不同的阶段逐渐训练,直到满足目标任务。
这样可以缓解预训练和微调之间的数据不一致或不匹配的问题,提高模型的迁移能力和泛化能力。
同时,在预训练阶段,轩辕还使用了多种自监督学习任务,如掩码语言模型、语句顺序预测、语句内部结构预测,这样可以从不同角度和层次学习语言知识和语义信息,提高模型的表达能力和理解能力。
基于这样的能力,我们也不难理解,为何轩辕大模型曾在2022年,在中文语言理解领域的CLUE分类任务中排名第一。并且距离人类“表现”仅差3.38分。
实际上,金融行业因其与数据的高度相关性,成为了NLP最早赋能的行业之一。
通过NLP,人们可以在证券投资中为量化投资贡献因子,如热点挖掘、舆情分析、事件驱动分析,或是在大数据风控中,用Tag抽取技术为构建用户画像提供技术支持。
例如事件驱动分析这一功能,在应用NLP技术前,很多金融从业人员真的是靠人盯新闻、公告,来获取相关信息,然而,从一篇长篇累牍的新闻或公告中,找出一些风险信号或营销机会真的是费时费力。
而NLP的应用,无疑极大地提升了金融领域的工作效率。
那么,在具备了准确识别和分析金融事件、市场舆情的能力后,金融大模型是否真的能带众多投资者一飞冲天,成为AI加持下的新一批“索罗斯”呢?
03 AI+投资,神话or噱头?
还记得开头提到的那个借助ChatGPT进行实盘投资,并声称收益率超过500%的例子吗?
截至5月底,已有2.5万名投资者被吸引,总共约押注1000多万美元的资金在ChatGPT选出的投资组合上。
然而,经过近两周的实践后,人们发现这个“AI分析师”似乎并没有像传说中的那么“神”。
人工智能选出的股票组合涨幅约为2%,基本与大盘持平,且按百分比计算,该组合中后五名股票的下跌幅度超过了前五名的涨幅。
针对这种情况,有文章分析称,这是因为Autopilot实验项目中的投资组合,是命令ChatGPT分析1万条以上的新闻,并得到得分最高的前100只股票,再结合公司财报数据得到综合打分,最终买入的前20只股票。
在失去空头部分收益的情况下,实际的投资表现自然会与论文中的回测结果产生较大差异。
等一下,不是说AI已经可以通过NLP,准确地识别并分析金融事件、市场舆情了吗?那为什么在结合了1万条以上的新闻+公司财报的情况下,“AI分析师”的表现仍然不佳呢?
可能的原因之一,就在于AI也许很客观,但人类却不总是如此。
在人类构筑的媒体世界里,虽然各类的网站、平台或社交媒体数不胜数,但在信息的传播过程中,大部分普通人,却往往会受到少数几家头部权威媒体的影响。
这些权威媒体、人士的倾向和态度,带动并影响了更多的网站、平台。
于是在处理某些类型的金融产品或市场时,大模型的数据源,可能会更偏向某些特定的网站或平台,而忽略了其他来源的信息,进而产生了“数据偏见”。
此外,在处理自然语言时,大模型可能会遇到一些语义歧义的情况,如果某些词汇有多种含义,AI在处理时可能会选择错误的含义,导致信息的偏差和误导。
这些部分,都是现阶段AI无法独自纠偏的。
不过,如果因为AI不能让人实现梦想中的“投资神话”,就认为金融大模型的存在,是一种锦上添花的技术,也未免太浅薄了。
因为在可预见的未来,传统风控模式面临效率低下、容易出错、难以面对大规模数据处理等挑战。
类似度小满在内的企业,通过大模型技术探索,让企业可以自动化地处理大量数据,快速、精准、全面地分析和识别贷款潜在风险,进而优化风险模型,提高风险控制的准确性和效率。
此外,轩辕大模型不仅能够解释授信额度、计算收益率、决策参考等金融专业问题,还能够结合资产状况、收益目标和风险偏好,以及外部的市场动态,给出更符合用户需求的答案和建议。
由此可见,在抛下了“通过AI投资暴富”的狂想后,金融大模型仍旧可以在风险防范、金融知识普及方面,让更多群体受益。
而这种更务实的方向,才是AI+金融正确的打开方式。