kaiyun开云中国2026世界杯官网入口诺基亚贝尔实验室与巴黎理工学院联手破解AI"形状镣铐"

来源：未知作者：admin 发布时间：2026-06-04 01:42 浏览：50

这项由诺基亚贝尔实验室（Nokia Bell Labs）与法国巴黎理工学院旗下的巴黎电信学院（Télécom Paris， Institut Polytechnique de Paris）都集开展的商榷，以预印本模样发布于2026年5月，论文编号为arXiv:2601.07525v2，有酷爱深化计议的读者可通过该编号检索好意思满原文。

**当AI被"形状紧箍咒"不休了想维**

你有莫得碰到过这么的情况：憨厚要求你写一篇作文，必须严格按照"着手-分论点一-分论点二-论断"的形状来，肃除你发现我方花了多数元气心灵考虑形状，反而把该说的情理没说了了？大说话模子（也即是咱们平时所说的AI对话系统，比如ChatGPT这类用具）正面对着都备一样的逆境。

这个逆境的根源在于，AI系统被要求同期完成两件事：一是好好想考问题，二是把谜底装进限定的形状盒子里。形状盒子越严格，想维空间就越受限。这项商榷的中枢问题恰是：能不可让AI先把想维过程透澈放开，等想了了了再套上形状外套？

商榷团队给出的谜底是一个名为"In-Writing"的新框架。这个框架就像给AI设想了一套"先草稿后定稿"的职责经由，让它在想考阶段都备目田阐明，惟有在准备输出最终谜底时才启动形状敛迹机制。实验肃除标明，这种作念法在多项任务上的准确率最高可以比原有方法提高27%。

**一、AI回应问题为什么需要"形状"这件事？**

介意会这项商榷之前，需要先搞了了一个布景问题：AI为什么要在乎形状？

当咱们在职责或生计中使用AI用具时，好多时辰并不是松驰聊聊天，而是需要AI输出结构化的内容。比如，病院系统需要AI给出模范化的会诊代码，财务软件需要AI输出固定形状的数据，设备者用具需要AI生成相宜特定语法例范的代码。这些场景的共同秉性是：输出必须"合规"，不可有少量倾斜，不然后续系统根底无法处理。

用一个更直不雅的比方来说，这就像餐厅的后厨系统和前台点单系统之间的对接。主顾可能用多样方式说"我要一份宫保鸡丁，少辣"，但后厨收到的指示必须是模范化的代码形状，比如"item_code: 0031， spice_level: 1"。如果AI输出的谜底像主顾点单一样猖厥，后台系统根底不知谈该如那边理。

正因如斯，商榷东谈主员恒久奋发于让AI输出愈加表率、可理解的内容。现在主流的方法大约分为三种道路，而这三种道路各自都有显着的颓势，这也恰是本商榷的起点。

**二、三条老路各有各的坑**

第一条路叫作念"天然生成"（Natural Generation），顾名想义，即是让AI像聊天一样猖厥回应，不施加任何形状落拓。这种方式的优点是AI的想维都备目田，能充分伸开推理过程，推理质料经常十分可以。但污点也很显着：AI有时辰会把谜底藏在一大段笔墨中间，需要迥殊设想规范去"挖"出来，并且挖出来的肃除不一定准确。更迫切的是，输出形状无法保证，关于需要结构化输出的工业场景简直莫得实用价值。

第二条路叫作念"硬敛迹解码"（Constrained Decoding），这是商榷界为了照顾形状问题而设备的技巧。它的职责道理类似于给AI戴上一副极端的"滤镜"——在AI每生成一个词之前，系统会查验这个词是否相宜事前设定的形状表率，如果不相宜就平直屏蔽掉，免强AI只可继承"正当"的词语。从形状保证的角度来说，这种方法相等可靠，输出的内容百分之百相宜表率。但问题在于，这副"滤镜"同期也落拓了AI的想维。商榷发现，这种方法会让AI在推理阶段就受到敛迹，导致一些在普通情况下都备正确的推理旅途被强行割断，最终肃除反而变差了。用打比方的方式说，这就像你在解数学题时，憨厚限定你只可使用"加法"和"减法"，是以你不得不烧毁更粗略的乘法解法，绕了一大圈才得到谜底，有时辰致使绕不转头。

第三条路叫作念"两阶段解救"（NL-to-Format），算是前两种方法的折中。具体作念法是先让一个AI用天然说话给出好意思满的推理和谜底，然后再用另一个（通常更大、更贵的）AI把这个天然说话谜底解救成需要的形状。这种方法在一定进度上兼顾了推理质料和形状表率，但代价是需要调用两次AI，老本翻倍，并且解救过程本人也可能出错，终点是在需要输出复杂多字段形状时，解救质料很不阐明。更要命的是，如果第二个AI解读第一个AI的输出时出了差错，最终谜底就会跑偏，而你致使不知谈问题出在哪一步。

还有一种叫作念CRANE的方法，它试图在推理过程中往复切换"目田模式"和"敛迹模式"，用极端的分隔象征来永别哪些部分是AI在目田推理，哪些部分需要受到形状敛迹。天然这个想路有一定创意，但实践起来十分复杂，并且切换的时机很难把控，现实肃除也受到了商榷团队的质疑。

**三、"先打草稿，再誊正"的In-Writing框架**

面对这三条老路的多样颓势，商榷团队建议了In-Writing。其中枢思念可以用书道老练来意会：先在厕纸上猖厥挥洒，把扫数倡导都纪录下来，比及想路都备清醒之后，再拿出肃肃的形状纸，工机密整地誊写最终谜底。

具体的技巧已毕方式是这么的：AI在回应问题时，领先插足"目田推理阶段"，这个阶段都备莫得任何形状敛迹，AI可以用任何它以为合适的方式想考和抒发。当AI认为我方也曾想了了了，它会输出一个特定的"触发词"（trigger token）。这个触发词就像是草稿纸上写下"定稿如下"四个字，符号着推理阶段的肃除和形状化输出阶段的驱动。从触发词出现的那一刻起，系统才会启动形状敛迹机制，确保接下来的最终谜底都备相宜预定例范。

商榷团队在原论文顶用了一个颇为逼真的类比：这种方法类似于图像处理规模的"缔造绘图"技巧（inpainting），即是只对图像的特定区域进行处理，可提现游戏平台中国官网而不编削其他部分。In-Writing同样只对"最终谜底输出"这个特定区域施加形状敛迹，让推理过程保握好意思满和目田。

从数学角度来意会（别记念，这里仅仅匡助意会，不需要果真作念贪图），传统的敛迹解码会让形状要求影响到通盘推理过程，导致好多合理的推理旅途被提前销毁。而In-Writing通过将推理阶段和形状化阶段透澈分离，使得推理过程都备不受形状要求的烦嚣，惟有最终的谜底输出才需要得志形状要求。这种分离带来的刚正是双重的：推理质料不会因为形状敛迹而下跌，同期最终输出又能保证百分之百的形状合规性。

**四、触发词的继承大有谨慎——"早醒"的烦懑**

商榷团队在设想In-Writing时碰到了一个毒手的问题，他们将其称为"过早触发"（premature triggering）。

回到书道的譬如：如果你在草稿纸上写了一半，瞬息以为我方也曾写好了，就急促切换到肃肃形状纸驱动誊写，肃除发现还有好多内容没想了了，这时辰再想且归补充草稿就辛勤了。In-Writing面对的是类似的问题——如果触发词继承不当，AI可能在还没推理完的时辰就误以为"该输出谜底了"，从而过早启动形状敛迹，把后续的推理过程也强行套进形状里，反而龙套了推理质料。

商榷团队测试了两种触发词战略。第一种叫作念"In-Writing-Base"，使用了两个触发词：一个是"句子肃除符"（``，即AI认为一段话也曾说完的信号），另一个是大括号"{"（JSON形状的驱动象征，因为商榷团队继承用JSON这种结构化形状来包装最终谜底）。问题在于，AI在推理过程中可能随时产生大括号这个象征，比如在描述一个齐集或者例如时，这就会不测触发形状敛迹，截断正在进行的推理。

第二种叫作念"In-Writing*"，只使用一个触发词，即是"句子肃除符"``。这个继承的逻辑很苟简：``惟有在AI果真认为整段输出也曾完成时才会出现，它不会在推理半途猖厥出现。因此，用``行为独一触发词，可以确保AI在都备目田地推理完了并天然肃除之后，才驱动形状化输出。实验肃除标明，这个苟简的诊疗简直都备摒除了过早触发的问题，终点是在需要复杂数学推理的任务上，In-Writing-Base可能因为过早触发而蚀本逾越30%的准确率，而In-Writing*则能阐明保握最优性能。

**五、实验设想：公谈竞技场上的全面考试**

为了考证In-Writing的肃除，商榷团队搭建了一个相等全面的测试体系，并且挑升设想了一个对我方不利的要求，以此来阐述方法的鲁棒性。

在模子继承上，团队测试了18个来自五个不同系列的开源说话模子，参数范围从15亿到140亿不等，涵盖了Qwen（通义千问系列）、Llama、Gemma、DeepSeek以及SmolLM这些在业界泛泛使用的模子家眷。扫数测试都在NVIDIA A40显卡上腹地运行，而非依赖生意API处事。

在测试任务上，开云·kaiyun体育团队继承了两大类共七个数据集。推理类任务包括：需要多步数学推理的小学数学题库（GSM8K）、将数字替换为变量以测试代数泛化才略的象征变体（GSM-Symbolic）、将单词临了一个字母拼接起来的字母连气儿任务（Last Letter Concatenation），以及算计物品在一系列交换操作后位置的打乱物品任务（Shuffled Objects）。分类类任务包括：49类医学会诊数据集（DDXPlus）、5类金融文天职类（MultiFin）、体育联系句子的真实性判断（Sports Understanding），以及对形状相等敏锐的刻板印象多选题（NI-Task 280）。

终点值得关心的是，商榷团队在实验设想上有一个主动"靡烂"：他们沿用了之前其他商榷团队的教导词模板，而这些模板都备莫得为In-Writing的输出形状提供任何疏导。换句话说，AI在推理完之后，都备靠形状敛迹机制自动输出结构化谜底，而不是因为教导词中也曾告诉它"请用JSON形状输出谜底"。这种设想使得测试要求对In-Writing相对不利，但肃除标明，即便在这种不利要求下，In-Writing依然阐明优异。

**六、数字背后的故事：实验肃除阐述了什么**

实验肃除揭示了几个相等有道理的情景，每一个都值得细细试吃。

第一个情景是"索求方式决定成败"。商榷团队发现，在使用相通教导词的情况下，天然生成（NL）、两阶段解救（NL-to-Format）和In-Writing*这三种方法现实上产生了都备相通的推理过程，区别只在于临了一步若何从推理肃除中索求谜底。也即是说，AI猜想的内容是一样的，但不同的"索求用具"带来了霄壤之别的准确率。In-Writing*的结构化敛迹索求方式比用另一个大模子来解读的方式更准确，最高可以多索求出27%的正确谜底。这个发现相等迫切，因为它标明在很厚情况下，准确率的相反并不来自AI的推理才略，而来自临了的谜底索求设施。

银河国际游戏平台官网

第二个情景是"大模子解读也会出错"。两阶段解救方法依赖一个更大的AI来解读第一个AI的输出，表面上应该很可靠。但实验中发现，解读模子有时辰会犯很奇怪的过失。在DDXPlus医学会诊任务上，解读模子有时辰会在正确谜底前边加上一大段解释性笔墨，比如"相宜给定灵验会诊列表的最终谜底是……"然后才给出会诊称呼，导致后续规范无法正确匹配谜底。更令东谈主担忧的是，在字母连气儿任务中，解读模子有时辰会"矫正"第一个AI的输出——比如第一个AI在字母之间加了无须要的连字符，解读模子把这些连字符去掉了，有时辰这么的"矫正"反而把过失谜底变成了正确谜底。这意味着两阶段方法有时辰不是在"索求"谜底，而是在"修改"谜底，这实质上是一种不透明的操作，让东谈主无法信任最终肃除的来源。

第三个情景是"形状敛迹不是银弹"。商榷团队通过详备分析发现，In-Writing天然阐明出色，但并非白玉无瑕。在GSM8K数学题中，存在一些案例，AI在目田推理阶段得出的笔墨谜底是"52500好意思元"，但最终的形状化输出却只写了"52"。这阐述形状敛迹机制在将推理肃除"翻译"成结构化输出时，有时辰会截断或歪曲原始推理，这是昔时需要不息翻新的标的。

在与CRANE方法的对比上，数字相反愈加权贵。以Llama 3.1-8B模子为例，CRANE在GSM-Symbolic任务上的准确率是33%，而In-Writing*达到了59%，差距高达26个百分点。商榷团队还终点指出，这种差距与另一项孤立商榷的发现高度吻合：从GSM8K到GSM-Symbolic，同等才略的模子通常只会下跌约10%的准确率。CRANE框架导致了远超这个浮浅水平的性能下跌，阐述它的语法敛迹确乎对推理过程酿成了实质性伤害，而In-Writing*的下跌幅度则守护在浮浅范围内。

**七、理解才略与效力：两个拦阻冷漠的维度**

除了准确率除外，商榷团队还从两个迥殊维度对比了多样方法的阐明：形状合规率（parsability）和词汇耗尽效力。

在形状合规率方面，In-Writing*在扫数测试场景中都达到了100%的形状合规率。比拟之下，天然生成方法的形状合规率因模子大小和任务类型而相反悬殊，有些情况下致使不及40%。两阶段解救方法天然提高了形状合规率，但仍然无法保证100%，并且解读阶段使用的教导词和模子对肃除影响极大，阐明性较差。硬敛迹解码方法也能达到较高的形状合规率，但会影响推理质料，这是一个两难逆境。

在词汇耗尽效力方面，肃除十分令东谈主心仪。In-Writing*比天然生成方法多耗尽的词汇量相等有限，通常只多出5到20个词（这些迥殊词汇主淌若JSON形状所需的括号、引号等结构性象征）。比拟之下，两阶段解救方法天然在现时测试中只多耗尽了2到5个词，但这仅仅因为测试中的解读任务相对苟简；当需要索求的是复杂的多字段结构化输出时，第二个AI需要耗尽的词汇量会急剧增多，并且这第二次推理本人即是一笔不小的贪图支拨。

还有一个细节值得关心：商榷团队在复核前东谈主数据时，发现了一些实验设想上的问题。比如，在打乱物品任务的教导词模板中，有两个变体明明列出了七个选项（A到G），却在指示中过失地写谈"请从以下四个选项中继承"。另外，少样本示例中有几个题目（比如"挪威男东谈主很没趣"的谜底尽然是"种族"）和倡导任务毫无联系，这些问题都可能影响对比肃除的可靠性。这些发现提醒读者，在看待任何AI性能对比数据时，都需要关心实验设想本人的严谨性。

**八、访佛分析：谁能弥补谁的不及？**

商榷团队还作念了一项很有价值的"交叉分析"：在相通推理过程的基础上，In-Writing*和两阶段解救方法分别在哪些题目上告捷，哪些上失败，两者的告捷与失败是否访佛？

以字母连气儿任务为例，SmolLM3-3B模子的分析肃除露馅：有53.5%的题目两种方法都作念对了，有34%的题目两种方法都作念错了，有0.7%的题目惟有两阶段解救作念对了，而In-Writing*作念错了，但有高达11.8%的题目惟有In-Writing*作念对了，而两阶段解救却失败了。这个漫衍阐述，In-Writing*随机弥补两阶段解救大部分的失败案例，而两阶段解救能弥补的In-Writing*失败案例却很少。

这种不对称性的来源是两种方法的根底相反：In-Writing*的形状敛迹机制除了索求谜底除外，还能对谜底进行隐性的"纠错"——如果AI在推理中输出了形状不对规的内容（比如在字母之间加了过剩的空格），形状敛迹会在输出最终谜底时自动过滤掉这些过失，将正确的内容以表率形状呈现出来。这是一种免费附赠的纠错功能，而两阶段解救方法除非解读模子正巧能识别并修正这类过失，不然无法取得这个上风。

**局限性不阴事：商榷团队的坦诚**

商榷团队在论文中明确承认了In-Writing现时版块的主要不及：通盘商榷过程中，他们莫得对教导词进行任何专门针对In-Writing的优化。测试中使用的扫数教导词都是为天然生成或两阶段解救方法设想的，内部通常包含类似"请在临了用'answer is:'前缀给出谜底"这么的指引，这对In-Writing来说都备莫得用。更进一步，跟着少样本示例数目的增多，AI会越来越倾向于严格谨守"answer is:"这个形状，反而在某些情况下裁减了In-Writing和两阶段解救方法的索求准确率，因为AI给出的谜底形状越来越不像JSON结构，而是越来越像天然说话前缀。这标明，如果专门为In-Writing设想优化的教导词，其阐明很可能还会进一步提高。

此外，形状敛迹机制偶尔会在将推理肃除升沉为结构化输出时产生过失，比如截断数字或沾污象征，这是技巧层面仍需翻新的问题。

归根结底，In-Writing提供了一个在推理质料和形状表率之间已毕双赢的清醒想路：不是让AI在想考时就戴上形状镣铐，而是让它先目田想考，然后通过一个精确的"临了一公里"形状敛迹将谜底装进合适的容器里。这个想路的老本极低（只多耗尽5到20个词汇），带来的收益却十分可不雅——不管是准确率、形状合规率照旧系统复杂度的裁减，都有显着改善。

关于那些需要在职责中使用AI用具处理结构化输出任务的东谈主来说，这项商榷意味着一种更可靠、更高效的AI部署想路行将成为可能。无须再纠结于"要准确率照旧要形状"，昔时的AI系统都备可以在单次调用中同期作念好这两件事。有酷爱进一步了解技巧细节的读者，商榷团队已在GitHub（Nokia-Bell-Labs/InWriting）绽放了一都代码，同期原论文arXiv:2601.07525也提供了好意思满的表面推导和实验数据。

Q&A

Q1：In-Writing框架和普通的AI回应方式有什么区别？

A：普通方式要么让AI都备目田回应（形状没保险），要么从一驱动就给AI套上形状镣铐（推理受限）。In-Writing的区别在于它把这两个阶段分开：先让AI都备目田地把问题想了了，等AI认为我方推理完了、产生一个特定的"肃除信号"之后，才启动形状敛迹，把最终谜底规规矩矩地输出成需要的形状，两个阶段互不烦嚣。

Q2：过早触提问题是若何产生的，若何照顾？

A：过早触发是指AI在还没推理完的时辰，就误触发了形状敛迹机制，导致后续推理被强行截断。这个问题的根源是触发词继承不当——如果用大括号"{"行为触发词，AI在推理中随时可能用到这个象征，就会不测启动形状敛迹。照顾决策是只用"句子肃除符"行为独一触发词，因为这个信号惟有在AI果真认为整段输出也曾完成时才会出现，简直都备摒除了过早触发的风险。

Q3：In-Writing多耗尽的词汇量会不会权贵增多使用老本？

A：不会。实验数据露馅，In-Writing*比拟普通天然生成方式，只多耗尽5到20个词汇，这些迥殊的词主淌若JSON形状所需的括号和引号等结构性象征。比拟之下，两阶段解救方法需要再调用一个大模子来理解谜底，举座贪图支拨远高于In-Writing，并且第二次调用还需要把第一次的好意思满输出行为输入kaiyun开云中国2026世界杯官网入口，输入词汇量本人就很大。是以In-Writing的迥殊支拨是十分轻微且固定的。

kaiyun开云中国2026世界杯官网入口 诺基亚贝尔实验室与巴黎理工学院联手破解AI&quot;形状镣铐&quot;

kaiyun开云中国2026世界杯官网入口诺基亚贝尔实验室与巴黎理工学院联手破解AI"形状镣铐"