生成高考志愿报告突破1000万份,夸克首次公开回应技术细节

作为一款辅助高考志愿填报的神器,夸克最新“战报”出炉。

观察者网获取的最新数据显示,截至7月1日,阿里巴巴AI旗舰应用夸克已累计为考生和家长生成超1000万份专业级志愿报告。这些报告由今年推出的“志愿报告”Agent生成,采用了具备“任务规划—执行—检查—反思”能力的深度研究技术。业内认为,这一成果已成为国内最大规模的深度研究技术应用。

公开资料显示,“志愿报告”Agent具备高度个性化与策略性,能够基于用户信息规划思考路径,调用搜索工具进行信息收集,通过志愿工具进行志愿表操作,过程中不断进行检查和反思。Agent底层由夸克高考志愿大模型与专业的高考知识库提供支持,具备接近专家水平的决策能力。

在执行过程中,Agent通过多轮“工具调用+反思调整”的机制,动态优化志愿方案。例如,当考生表达“倾向留在省内(广州、深圳优先)、不考虑偏远地区”时,模型会自动生成搜索指令:优先推荐广州、深圳的高校,其次考虑广东省内其他城市院校,排除偏远地区选项;若优质选项受限,Agent还能主动反思扩展搜索范围,如增加广东周边发达城市,或在高层次高校(如985)上适度放开地域限制,为考生争取冲一冲的机会。

此外,Agent具备处理复杂、甚至自相矛盾诉求的能力。面对“数学成绩差,但想报考计算机”这类常见冲突,系统会触发“需求澄清”流程,提示用户这一选择可能存在的能力匹配问题。这种专家式的思考路径和策略调整,是传统工具难以实现的,也是夸克“深度研究”技术真正实现智能化决策的关键所在。

AI到底是如何帮助考生实现“志愿规划”的?在日前的一场活动上,围绕夸克高考AI技术背后的各项细节,夸克算法负责人蒋冠军和夸克高考技术负责人唐亮,与观察者网等媒体进行了一次深度分享。

媒体提问:夸克是如何为考生填报志愿提供辅助的,它的核心能力是什么?

夸克算法负责人蒋冠军:高考志愿报告要解决的一个核心问题,是帮助用户获取大量复杂信息,然后根据这些复杂信息来帮助用户做决策,完成学校报考。高考志愿填报产品,与其他通用产品围绕大模型做的问答产品,有非常大的差异。它必须专业、准确,而且必须个性化——在没有大模型以前,这个能力是传统问答无法做到的。

从高考的基本逻辑来讲,我们提供的是一个“三位一体”的产品:其一是类似通用搜索的能力,用大模型将所有高考相关的问答进行系统性升级;其二是志愿工具,用户可以输入分数、学科,通过各项筛选工具的勾选,来生成参考建议。

其三是免费的志愿报告,用户可以根据志愿报告反向查询基本信息,修改志愿需求等等——对于很多高考考生或者家庭来说,他们最大的问题其实是不知道怎么填报。他得到了一个分数,但是对于学校、专业,包括将来的就业、考研等这些信息其实都不熟悉。

媒体提问:收集和输出高考相关信息时,其准确性夸克是怎么保证的?

蒋冠军:数据方面,我们必须要做到专业、准确。以前的技术方法是做通用搜索,在H5网页生态里去筛选相对比较优质和权威的数据。但传统方法下,信息散落在多达几百亿个网页之中,错误非常多。因此我们现在精选了与高考直接相关的几十亿个网页,并对它们进行信息的准确性识别,以及质量分析等工作,包括收集大量非H5网页。

很多高考政策或者学校招生信息,都收录在相关机构和院校的官网里。但是有一个潜在问题,这些官网和机构,在市场上并不是“知名站点”。传统的通用搜索引擎很可能因为它是一个小站点,或者平时用户量少,相关数据收录就比较少。因此,我们在这上面投入了大量的人力,把各种网站里的专业资料、政策都搜集进来。

夸克高考技术负责人唐亮:高考问答我们每年都会做,在去年基础上,今年我们重点强调高考的专业知识库概念。专业知识库我们总共搜集了8000多个站点,大概覆盖了20多亿数据,高考相关的权威站点占比99%以上。对这8000多个站点,我们内部也会有些分层,比如有些像考试院、教育部、招生办这部分肯定是政策相关最权威的。

还有一个是“政策库”。每年志愿填报可能都会不间断地出些新政策,我们也会人工实时更新,通过人工与组织监控的方式,补足到政策库里,让整体数据可以有详细更新。非H5网页部分,我们会把整个高考高校近三年的就业数据、考研数据和招录体检要求等信息,包括政府报告、行业研究分析收集进来。基本涵盖了市面上所有的数据。

媒体提问:有设计保障措施吗,从而进一步保障数据准确性?

唐亮:对于从各个渠道拿到每个省的招生计划以及历年分数线,这部分数据我们差不多有七年时间的积累。这里面主要核心工作是两大部分:一部分是数字对齐,用算法、用大模型去做招生计划和分数线的对齐;另一部分是通过上百人的人工审核方式,对那些“不置信的内容”进行人工审核。

媒体提问:高考志愿填报所用到的大模型,和传统的通用大模型有哪些区别?

唐亮:获得海量权威数据之后,我们要把它应用在高考志愿大模型里。这里主要有两个地方会应用到,第一个是作为RAG(Retrieval-Augmented Generation,检索增强生成,旨在解决传统大模型幻觉问题和知识滞后性局限)材料内容供给,我们做材料结合时,会强调材料来源是高时效、高权威。

第二个方面,我们会把这些数据应用到高考志愿大模型的训练当中,让它们作为训练语料,帮助模型打磨这部分知识。在模型训练时,我们会做大量的思路性校验、数字校验、实时性校验等,相比通用模型有效降低幻觉率。

媒体提问:拿到招生计划,怎么进行“预测”?

唐亮:我们知道了当年的招生计划以及历年数据,那么第一步就是预测今年的情况。我们会结合今年的情况和历年的变化趋势,判断这个志愿今年是下跌还是上涨,给出大概的下跌上涨区间。还有就是判断每个分数段扩招、多招情况,对于扩招、多招数据进行一定比例的预测,这样就会预测出今年大概是怎样。

预测完志愿波动变化范围,比如一些top的非常好的学校,其实每年波动会非常少,而像一些中低分段学校比如专科院校,波动范围比较大的,我们会统计每个省份每个分数段根据选科情况看波动范围。根据波动范围以及对应的政策,大概有个志愿的动态分布。再看考生在动态分布的哪一个位置,那个位置就是我们预测的概念。

这里面会出一些其他情况:比如说新专业或者新学校,我们如何去预测得更准?对于新专业,我们会拿各个学科相近的专业对参考;新学校我们也会看各个学校相似的学校,通过相似专业相同学校去看新专业新学校相对的范围。

我们所做的工作,是让用户可以通过我们的志愿工具,通过筛选的方式获取到志愿报告。这个过程中用户可能循环多次,最终才能拿到想要的志愿报告。报告给用户带来的是什么?用户输入自然文本,我们把它“翻译”成用户诉求,然后去检索、生成合适的结果。

媒体提问:也就是说,“志愿预测”本质是一个多环节环环相扣,理解用户并提供参考的过程。

唐亮:这个环节的第一步是规划。用户输入信息,我们的工具要把这个信息进行志愿规划,开展工作任务。那么就先要明确用户大概的分数水平,去判断他在什么范围,后续再引入各项指标:他对学校层级的要求,对专业的要求,对地域的要求,对未来规划的要求……把它拆成一个一个的规划问题。

第二个步骤是对规划任务进行执行。这需要调用搜索工具,因为可能会有比较模糊的概念,比如说如何理解“数学成绩比较差”,当然也可能需要借助高考知识库。数学成绩差的,可能就不太适合填报那些对数学成绩要求比较高的学校、专业。如果数学成绩比较好,可能计算机、数学统计等专业就比较适合。

接着,我们要把用户诉求转变成操作志愿表的指令。比如有的考生想留在省内,例如“广州深圳优先,不想去偏远地区”,我们需要把这样一句话(自然语言文本)转化成地域维度的操作指令:最高优先级是广州和深圳,次优先级是广东省内,最低优先级是偏远地区。我们要把这样的范围文本,变成操作志愿表的专业指令。

“指令”被发送给志愿表,让其进行操作,就会形成反馈。我们会根据他反馈的结果规划下一个执行什么:如果反馈适配的结果比较少,那么我们可能会借助专家建议,去进行反思以及拓展。

比如说,一位考生选择广东深圳优先,但适合的广州深圳的志愿比较少,那可能就会把条件放开,比如放开到广东省;如果考生选择了那些高层次的985,那么可能就会突破一些限制,广东省周边的高层次院校,也可以进行推荐。我们通过来回的规划任务执行、检查和反思,去生成多条指令来操作。

媒体提问:相当于给考生的不同需求,加上不同的权重。综合生成一套方案出来。

唐亮:在操作过程中,指令会被分成几个维度,有可能会是对高校层级的要求,有可能是对专业的要求,有可能是对地域的要求,有可能是对招生计划,甚至比如说学校氛围、学校便利性以及住宿要求,食堂要求,周边交通要求等等……它们都会被归纳到六个维度,系统分别给这六个维度打分。

通过执行、检查、反思过程,系统会把它转化到操作志愿表的指令,最终我们会根据每个维度的打分,根据用户诉求,生成一个最终的志愿表。因为执行过程中我们可以每个志愿打分六个维度结构,综合用户对每个维度的诉求,给他综合排序。最终,系统会把整个过程规划、反思过程写成一份整体志愿报告,形成完整的整理过程。

在这里面,我们其实借助了非常多的专家支持。比如说构建Agent过程中,我们训练模型时会根据专家线下一对一的志愿填报过程,搜集专业数据。比如专家和家长老师的对话过程,里面有很多相关的诉求数据。当然也包括专家面对考生时的分析思路,以及专家怎么给不同考生的个性化推荐内容,以及每个地方的政策要求。

在冷启动时,我们根据线下老师一对一的数据进行训练,训练之后还有托管模式,托管后可以用线上的真实数据构建RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)数据。拿到线上用户真实反馈数据之后,我们在线下也会让多个专家进行维度打分。

线下打分主要是两大维度,一是整体规划执行过程是否合理,二是最后生成内容排序是否合理,专业匹配是否合理,它们会由专家老师打分,形成“奖励”维度。我们志愿决策,会奖励模型一部分,去优化刚才执行过程志愿表打分过程,优化之后形成最终的完整算法。整体过程就是这样。

 (发言系现场录音整理,未经当事人审订)

上一篇:YU7订单遭友商“截胡” 小米汽车陷 "产能困局"
下一篇:家乐福CEO放话:对中国小包裹,要学特朗普征税100%

聚焦

更多

多媒体

更多

排行