金融AI大乱斗！四道真实业务题，专治只会刷分的模型

一句话说清楚

这个比赛不是比谁能刷高分，而是让AI解决金融行业里的真实难题。四道题都是银行、保险、投研天天遇到的硬骨头：怎么从股票数据里看出机构在搞什么鬼？怎么把又长又乱的保险保单整理成电脑能读懂的格式？怎么在只允许试20次的情况下找到最优方案？怎么从几百页财报里准确回答一个问题，还不烧太多钱？

四道题，就是四个痛点

🥇 赛题一：猜透股市里的“老狐狸”

散户最头疼的事：屏幕那头的大单是真心想买，还是故意挂出来骗人接盘？出题人说，这不仅是数学题，更是心理战——机构会故意用挂单、撤单来制造假象。大模型能从海量高频数据里发现人眼看不到的规律，但问题来了：数据量太大，直接塞给模型会炸掉内存。选手得先写规则让模型“把数据嚼碎了再咽”，而且不能太抠成本——如果策略真能赚钱，花再多算力也值。

🥈 赛题二：把保险PDF变“乐高”

一份保险合约可能有几十页，里面塞满表格、脚注、附录。普通人翻到15XX页找“45岁能领多少钱”太慢，机器又经常读错顺序（先读右边再读左边）。比赛要求把PDF变成结构清晰的Markdown，就像把一堆乱拼的乐高按说明书重拼。难点在于超大图（几亿像素）和超长表格，直接丢给模型会撑爆。选手得设计一个工作流：先切开图片，再用小模型分块解析，最后拼回去——有点像福尔摩斯拼线索。蚂蚁专门给这题做了一个4B参数的小模型FinixDoc-VL，在金融文档还原上能拿到81分（满分100）。

🥉 赛题三：有限的试错次数，做出好“菜”

这题像做菜：你只能尝几口（试错成本很高），但必须端出一盘让客户满意的菜。比如在金融图学习任务里，每次调整参数都要消耗计算资源。出题人特别强调：不要迷信大模型。有些场景里，一个3B参数的专业模型可能比千亿参数的通用模型更省钱、更精确。员工也一样——只会用AI工具干活的人容易被取代，能解决AI搞不定的问题的人才有前途。

🏅 赛题四：长文档里精准“捞针”，且要说出“针”在哪一页

金融问答最麻烦的是：答案必须在合同里找到具体出处，不能瞎编。文档又臭又长，有表格有附录有交叉引用。简单粗暴地切片检索会丢失上下文，全文硬塞给模型又容易产生幻觉（比如把A产品的条款安到B头上）。标准做法是：先拆文档建索引，再分析题目定位关键段落，只把相关几段喂给模型，最后还要校验答案来源。出题人还补充了一个很多人没想到的点：上下文成本控制很重要——如果用最贵的模型干最基础的活，成本爆炸，根本没法落地。

总结

这场比赛不追求模型参数多强大，而是逼选手思考：在真实约束（数据大、预算少、错误代价高）下，怎么让AI真正帮人干活。用出题人的话来说：现在大家容易被“模型越大越厉害”的错觉带偏，但垂直场景要的是极致——用最小的token完成最多的活。