金融AI大乱斗!四道真实业务题,专治只会刷分的模型
一句话说清楚
这个比赛不是比谁能刷高分,而是让AI解决金融行业里的真实难题。四道题都是银行、保险、投研天天遇到的硬骨头:怎么从股票数据里看出机构在搞什么鬼?怎么把又长又乱的保险保单整理成电脑能读懂的格式?怎么在只允许试20次的情况下找到最优方案?怎么从几百页财报里准确回答一个问题,还不烧太多钱?
四道题,就是四个痛点
🥇 赛题一:猜透股市里的“老狐狸”
散户最头疼的事:屏幕那头的大单是真心想买,还是故意挂出来骗人接盘?出题人说,这不仅是数学题,更是心理战——机构会故意用挂单、撤单来制造假象。大模型能从海量高频数据里发现人眼看不到的规律,但问题来了:数据量太大,直接塞给模型会炸掉内存。选手得先写规则让模型“把数据嚼碎了再咽”,而且不能太抠成本——如果策略真能赚钱,花再多算力也值。
🥈 赛题二:把保险PDF变“乐高”
一份保险合约可能有几十页,里面塞满表格、脚注、附录。普通人翻到15XX页找“45岁能领多少钱”太慢,机器又经常读错顺序(先读右边再读左边)。比赛要求把PDF变成结构清晰的Markdown,就像把一堆乱拼的乐高按说明书重拼。难点在于超大图(几亿像素)和超长表格,直接丢给模型会撑爆。选手得设计一个工作流:先切开图片,再用小模型分块解析,最后拼回去——有点像福尔摩斯拼线索。蚂蚁专门给这题做了一个4B参数的小模型FinixDoc-VL,在金融文档还原上能拿到81分(满分100)。
🥉 赛题三:有限的试错次数,做出好“菜”
这题像做菜:你只能尝几口(试错成本很高),但必须端出一盘让客户满意的菜。比如在金融图学习任务里,每次调整参数都要消耗计算资源。出题人特别强调:不要迷信大模型。有些场景里,一个3B参数的专业模型可能比千亿参数的通用模型更省钱、更精确。员工也一样——只会用AI工具干活的人容易被取代,能解决AI搞不定的问题的人才有前途。
🏅 赛题四:长文档里精准“捞针”,且要说出“针”在哪一页
金融问答最麻烦的是:答案必须在合同里找到具体出处,不能瞎编。文档又臭又长,有表格有附录有交叉引用。简单粗暴地切片检索会丢失上下文,全文硬塞给模型又容易产生幻觉(比如把A产品的条款安到B头上)。标准做法是:先拆文档建索引,再分析题目定位关键段落,只把相关几段喂给模型,最后还要校验答案来源。出题人还补充了一个很多人没想到的点:上下文成本控制很重要——如果用最贵的模型干最基础的活,成本爆炸,根本没法落地。
总结
这场比赛不追求模型参数多强大,而是逼选手思考:在真实约束(数据大、预算少、错误代价高)下,怎么让AI真正帮人干活。用出题人的话来说:现在大家容易被“模型越大越厉害”的错觉带偏,但垂直场景要的是极致——用最小的token完成最多的活。