塞巴斯蒂安·拉斯奇卡(Sebastian Raschka)的新书《

日期:2025-05-04 09:25 浏览:

从AI-set的正面选择:Sebastian Raschka机器编译模型正在完整开发。著名的AI技术博客作者塞巴斯蒂安·拉斯卡卡(Sebastian Raschka)还写了一本新书,其中关于理解模型的工作方式“从一开始就是推理”。在此之前,他在AI领域发表了许多著名的书籍,包括开发大型语言模型(从一开始),对机器Q和AI的研究,使用Pytorch和Scikit-Learn的机器学习。最近,他在他的博客上发布了本书的第一章,该章提供了LLM领域推理的介绍性介绍,并概述了诸如Invreted Time扩展和增强学习等技术技术。 Machine的核心将本书的第一章结合在一起,以供读者享受。原始地址:https://magazine.sebastianraschka.com/p/first-took-at-gmka-from-ccratch(注意:对于清晰的文本,本文将以“推理”和推理为“推理”;ERSETERTION是指根据逻辑评估的输入(例如开发文本)计算产生输出的模型的过程,该过程是由通过思考链条和其他方法来判断或解决问题引起的)的。欢迎来到大型语言模型(LLM)的下一阶段:推理。 LLMS改变了我们处理和开发文本的方式,但是它们的成功很大程度上是由于认识到统计模式。但是,新的进步正在采用概念方法,使LLM可以处理更复杂的任务,例如解决综合难题或多步算术问题。本书的主要部分是了解这些方法。本章的内容将介绍:在LLM中,“识别”的具体含义;理解和匹配模式之间的主要区别; LLM的传统培训前和培训阶段;提高LLM推理能力的基本方法;以及为什么从一开始就开发模型会帮助我们了解他们的广告实践中的Vantages,限制和权衡。 1。在LLM中,“推理”到底是什么?基于LLM的推理是什么?这个问题的答案和讨论足以独自写一本书。但是,与本书不同,目标是从Sifro​​m实施LLM推理程序,因此请注意实用和动手编程,而不是推理的概念。但是,我认为在LLM上下文中简要指定所谓的“推理”仍然很重要。因此,在延续章节变成编程部分之后,我想在本书第一部分中的LLM上下文中定义推理,及其与匹配模式和逻辑推理的相关性。这将为进一步讨论LLM的构建,如何处理推理活动以及其优势和缺点的基础。在本书中,LLM上下文中的“推理”定义如下:在LLM上下文中,推理是指模型'S在给出最终答案之前采取中间步骤的能力。这个过程通常被描述为对思想链(COT)的挑战。通过了解COT,LLM清楚地生成了结构化语句或计算 - 计算计算以说明得出结论的过程。图1显示了LLM多步(COT)识别的简单示例。图1:多步推理任务的LLM处理的简短版本。理解模型的作用不仅是一个现实,而且不是集成,而是在理解中得出正确的结论的许多中间步骤。根据如何实施,中间推理措施可能会或不会向用户显示。从图1可以看出,LLM采取的中间推理措施看起来像一个大声表达自己内在思想的人。但是,出口的确切程序(以及由此产生的推理过程)如何类似于人类推理仍然是一个问题T还有待回答,这本书不会试图回答。我们也不确定是否可以清楚地回答这样的问题。相反,本书着重于解释和实施可以增强LLM推理功能的方法,从而使LLM可以更好地处理复杂的任务。我希望通过启动这些方法,您将了解并改善开发的推理方法,甚至探索它们与人类推理之间的相似性和差异。注意:LLM推理过程可能与人类思维相同,尤其是在表达中间步骤的方式中。但是,目前尚不清楚在内部认知过程方面是否会引起人类推理的推理。人类推理方法通常是故意操纵概念,凭直觉理解抽象关系或基于某些示例的分类。相反,当前的LLM推理主要基于从大量统计关系中学到的模式WITH培训数据,而不是提供或有意识的人的明确内部结构。因此,尽管推理增强的LLM的输出看起来有点像人类,但其基本机制也有很大的差异(也许),也是一个主动探索区域。 2。LLM的LLM流程简介本节将总结LLM通常的实践方法,以便我们更好地理解其设计并了解其MGA限制。该背景还将帮助我们讨论匹配模式和逻辑推理之间的差异。在应用任何推理方法之前,传统的LLM培训通常分为两个阶段:训练前和训练后,如下图2所示。图2:典型LLM的训练过程的一般 - 传播。最初,初始模型是用随机权重启动的,然后将大规模文本数据集的下一个模型预测到Ken执行的预训练以学习语言模式。然后是模型通过教授微调和美味的调整来优化,使LLM可以更好地遵守人类的指示并与人类的偏好保持一致。在培训前阶段,LLM使用伊萨(Isang)的无标记文本(包括书籍,网站,研究论文和许多其他资源)进行了培训。 LLM的培训前目标是学会在这些文本中猜测下一个单词(或令牌)。当使用Terabyte文本进行大规模预培训时,当前的LLM目前倾向于在这个月内运行数千个GPU,并花费数百万美元,从而产生了强大的LLM。这意味着他们开始具有与人们写的非常相似的文本的能力。此外,在某种程度上,预先训练的LLM将开始显示所谓的新兴属性,这意味着它们可以执行未指定的培训活动,包括翻译,生成代码等。培训后目标是让LLM学习G对用户查询的答复,如图所示In下面的图3。图3:在培训的不同阶段,语言模型响应的示例。在图中,直接词需要摘要睡眠与健康之间的关系。预培训的LLM提供了相关但非关注的答案,并且不直接遵循说明。 LLM的精细版本的指令生成了与即时单词一致的简洁而准确的摘要。更喜欢微调的LLM改善了响应使用 - 使用友好的语气和更具吸引力的语言,以使用户更加相关和中心。如图3所示,微调的教学可以改善个人助理,例如LLM活动,例如问答,摘要和翻译文本等,然后,偏好精细的阶段调整可以完美。这有助于根据用户偏好自定义响应。此外,通常使用微调来使LLM更安全。 。训练后阶段可以改善U通过正确教授LLM的工作,并允许LLM通过维修偏好以某种风格创建答案。对LLM训练前和训练后培训阶段的细节感兴趣的读者可能是指大型语言模型的开发(从一开始)。当前的推理书不需要有关这些阶段的知识,您将获得以前从一开始就接受过培训和培训的模型。 3。模式匹配:llm基于先前的文本如何遵循令牌。他们依靠发现数据中的统计定律,而不是真正“理解”内容。因此,尽管他们可以写流利且平滑的句子,但本质上只是模仿表面连接而不是深入思考。目前,大多数LLM(例如GPT -4O,Meta的Llama 3,除非是特殊训练的技能)这样的工作 - 它们并不是像人类这样的步骤,而是从Trainin找到最有可能的答案G数据基于输入问题。简而言之,他们不会通过真正的逻辑推导来回答问题,而是更像输入和输出的“匹配”模式。您可以参考以下示例:提示:德国的首都是...答案:柏林时:柏林回答“柏林”,它不会通过逻辑推理得出结论,而仅记得训练数据中“德国→柏林”的高频组合。这种反应就像条件反射一样,我们称之为“匹配模式” - 模型正在再现学习的文本策略,并且并没有真正想到步骤步骤。但是,如果您遇到更复杂的问题怎么办?例如,根据已知事实减少答案的任务?目前,需要另一种能力:逻辑推理。真正的逻辑推理是指减少结论基于结论的前提,例如解决数学问题。它需要中间的心理步骤,可能会发现不一致,也可能是JU基于既定政策的dgedg原因。它与简单的“与文本的匹配关系”完全不同。示例:所有鸟都可以飞。企鹅是鸟类。企鹅可以飞吗?如果是一个人(或一个真正知道如何推理的系统),您可以立即发现错误 - 根据前两个句子,似乎企鹅应该飞行,​​但是每个人都知道企鹅真的不飞,这是矛盾(如下图1.4所示)。知道如何推理的系统是立即理解这一矛盾并意识到:第一句话太完美了(并非所有鸟都可以飞),或者企鹅是一个例外。图4:由前提冲突引起的逻辑冲突的示意图。基于两个句子,即“所有的鸟都可以被踢”和“企鹅是鸟类”,我们将介绍“企鹅可以飞行”的结论。但是,这个结论直接与众所周知的事实相矛盾,即“企鹅不能飞”,创造骗局交易。训练。没有明确政策的逻辑。当遇到冲突的地区时(例如“所有鸟类可以飞行,但企鹅不能飞行”),普通的LLM确实不会。主动发现这些矛盾。它们仅根据在实践中学到的文本规则形成答案。现在,让我们看一个特定的示例(请参见图5):如果像GPT-4O这样的模型没有专门的推理能力增强,那么这个问题如何回答“所有鸟类都可以飞……”?图5:语言模型(GPT-4O)如何保持冲突的地方的一个示例。从图5中的示例中可以看出,尽管GPT-4O不是一个专业的概念模型(与其他专门从事推理功能(例如O1和O3)的OpenAI不同版本不同,它提供了似乎可以回答这个问题的内容。这是怎么回事? GPT-4O真的在做逻辑推理吗?实际上,事实并非如此,但至少这意味着4o可以“假装”逻辑原因G在熟悉的场景中非常揭示。实际上,GPT-4O并未积极评估该陈述是否与之矛盾。它的答案完全基于从大量数据中学到的“文本匹配可能性”。示例:如果正确的陈述“企鹅不能飞”在训练数据中经常出现,则该模型将严格记住“企鹅”和“不能飞”之间的关系。如图5所示,尽管4O没有真正的逻辑推理能力,但它也可以使用“文本的文本概率”提供正确的答案。简而言之:这不是有逻辑政策的,而是以“他们在见到它们后自然会记住的方式回答问题”。简而言之,模型才能“意识到”这种矛盾的原因是因为它在训练过程中反复看到了类似的例子。这种能力完全来自它在大量数据中学到的文本政策 - 例如我们经常说的“训练使它变得完美”,您自然会知道它如果您看到的话。换句话说,尽管普通的LLM似乎是逻辑上的推理,但他们并没有根据规则考虑步骤,而仅使用从大规模培训数据中学到的文本策略。但是,Chatgpt 4o可以正确回答这个问题,显示出一个重要的现象:当模型被训练为大小时,“隐性匹配定律”功能可能非常强大。但是,基于统计法的模型也有明确的缺点。例如,在遇到以下情况时很容易犯错:遇到新问题(在培训数据中尚未看到的逻辑问题)→就像让学生知道如何做如何做突然遇到他从未见过的测试问题的问题;这个问题太复杂了(需要链接的多步推理)→就像让计算器解决需要在证明过程中写入的数学问题一样;它需要严格的逻辑推导(但是在培训数据中没有类似的情况)→就像让一项研究将ANG模拟的研究模型模型创建了新的文章类型一样。由于政策系统是可靠的,为什么今天不流行?实际上,在1980年代和1990年代,基于政策的系统实际上很受欢迎,并且使用了医学诊断,法律判断力和工程设计等领域。直到今天,我们仍将在某些生活相关的地区(例如医疗,法律和航空航天)看到它们。电影 - 毕竟,这些场合需要明确的推理过程和决策的基础。但是,这种类型的系统存在缺陷:它完全取决于Manu的写作规则,并且尤其难以发展。相比之下,只要在大量数据中训练并且适合培训,诸如LLM之类的深神经网络(例如LLM)可以轻松处理各种任务。我们可以这样理解:LLM“安装”逻辑推理通过研究大规模的数据策略。尽管他们不操任何基于内部策略的逻辑系统,都可以通过特殊优化技术(例如增强的计算功率计算和训练后技术)进一步增强这种模拟能力。值得一提的是,LLM推理的能力实际上是一个逐步的发展过程。以前在O1和DeepSeek-R1等专业明显模型之前,普通的LLM可以通过开发中间步骤来显示类似于正确结论的理由绘制的行为。我们今天谈论的是Kakathis进一步加强和优化的重要结果,Kakathis主要以两种方式实现:1。使用特殊的计算计算技术,2。实现训练后目标。本书的后续内容将重点介绍这些高级方法,以提高大型语言模型解决复杂问题的能力,从而更深入地了解如何增强大型大型推理能力语言模型。 5。提高LLM推理能力。大型语言模型的“推理能力”实际上进入了公众的愿景时,当OpenAI于2024年9月12日发布O1。在官方公告文章中,OpenAI明确提到,AI的新版本并没有像以前那样返回秒,但要考虑大约几秒钟的人来确保Sago Sago Sago Ist更可靠。 Openai还明确表示,在解决科学,编程,数学等领域的复杂问题方面,这种思维的提高能力特别独特。-在这些领域的所有问题中,这些领域的问题通常需要再花几个转弯才能知道这一点。尽管未披露O1的具体技术细节,但通常认为它是基于上一代模型(例如GPT-4),以通过“改善计算计算的能力”来实现更强的心理能力。几个月后的2025年1月,一项深入搜索发布了DeepSeek-R1模型,技术报告,详细介绍了训练的训练方法,从而引起了极大的感觉。因为:他们只是不打开一个模型,可以免费或什至免费超过O1;他们还宣布了如何开发此类模型的完整解决方案。这本书将帮助您了解这些技术原则,从一开始就实施这些方法来提高AI的推理能力。如图6所示,增强识别大语言模型的能力的方法可能会在很大程度上分为三类:图6:提高理解大语言模型的能力的三种方法。在完成常规训练模型后,通常使用这三种方法(推断计算增强,增强研究和知识杂交)。包括所谓的常规培训:基本模型培训,预训练,教学调整和Slyan调整。如图6所示,这些增强方法用于已经完成了上述常规训练阶段的模型。未经时间计算时间(也称为推断的增强时间计算,测试增强等)的计算时间包含一系列方法,以提高模型理解理解阶段的能力(即用户输入快速单词时)。这些方法不需要训练或更改基础模型权重。它的主要思想是增加计算源以换取提高性能,并使用螺旋推理以及许多采样程序和其他技术来制作固定的参数模型,这增强了更强的了解能力。研究(RL)是一种训练方法,可通过最大化奖励信号来提高模型的推理能力。 Ang Mekanismo ng gantimpala nito ay ay nahahati nahahati sa dalawang kategorya:pangkalahatang gantimpala:功夫学位sa pagkumpleto ng gawain ng gawain ng gawain o heuristic o heuristic cocking ay tumpak,ay tumpak,ay tumpak,ay tumpak,ang mga napatunayan na gantimpala: kung ang tamang mga sagot sa mga katanungan sa matematika o ang pagpasa ng rate ng mga gawain sa programming ay naiiba sa mga pagkilala sa oras na pag-scale, ang RL ay nakakamit ng pagpapabuti ng kakayahan sa Pamamagitan NG MGA Dinamikong Pag-aayos ng MGA Modelo NG MGA参数(Pag-update ng重量)。该机制为继续根据环境反馈测试和研究错误来继续优化识别策略的模型。注意:在开发模型的知名度时,有必要在此处清楚地区分纯强化学习(RL)程序(RL)从强化学习(RLHF),基于对微调语言模型的传统大语言开发的偏爱(如图2所示)。两者之间的主要区别在于奖励信号资源:RLHF通过模型的明确标记或输出类型生成奖励信号,这直接指导模型适应人类的预先审核nces;纯RL取决于奖励信号驱动的自动或气氛(例如数学证明的准确性),其优势在于客观性,但可能会减少与人类主观偏好的一致性。常见场景比较:纯RL练习:将任务作为证明数学作为例如,该系统仅根据证明步骤的准确性提供奖励; RLHF培训:要求人类评论者优先分类不同的输出,以优化符合人类标准的响应(例如表达清晰度,逻辑流利度)。管理的微调和蒸馏模型的蒸馏是指在打火机模型中通过大型大型模型学习的复杂识别模式的技术。在LLM字段中,通常使用大型大型性能产生的高质量注释教学数据集显示为罚款(SFT)。这种方法通常被共同称为kn知识或对LLM文献的奉献精神。来自传统的-Depth研究的功能官:在经典知识中,“研究模型”需要了解输出结果和“教师的模型”,而LLM约会通常用于基于输出结果来转移研究。注意:在这种情况下使用的技术使用的调整(SFT),类似于语言模型的常规开发中的SFT,其主要区别反映在以下事实中,培训样本是由专门用于识别任务(而不是通用LLM)的模型生成的。因此,它的培训样本更专注于违规活动,通常具有中间的理解步骤。 6。从一开始就开发识别模型的重要性。自2025年1月发行DeepSeek-R1以来,能力LLM推理的提高已成为AI领域中最热门的话题之一。原因并不难理解。斯特隆GER推理功能使LLM可以解决更复杂的问题,并使其更有能力解决用户关心的各种任务。 OpenAI首席执行官于2025年2月12日发表的声明也反映了这一变化:我们将下一步发布GPT-4.5,这是我们在内部称为Orion的模型,这是我们最后一次非经过思考的连锁模型。之后,我们的主要目标是通过创建可以使用我们所有工具,知道何时长期思考的系统来团结O系列模型和GPT系列模型,并且可以广泛用于各种活动。上面的以下是从领先的LLM往来的转变为侵权模型。在这里,链条的思想是指一种暗示,可以指导语言模型以逐渐推理其推理能力。另一点值得一提的是,“知道何时长期思考”也是一个重要的设计考虑:推理并不总是必要或可取的。Tanding模型旨在解决复杂的任务,例如解决难题,高级数学问题和困难的编程活动。但是,对于基于知识的摘要,翻译或问答之类的简单任务,不需要推理。实际上,如果将理解模型用于所有任务,则印地语可能是有效且昂贵的。例如,构想模型通常更昂贵,更长的使用,有时由于“跌倒”而容易出现错误。此外,一个简单的规则适用于此:使用正确的工具(或LLM类型)进行特定任务。为什么明显的型号比非属于非属性模型更昂贵?主要是因为它们倾向于产生更长的输出,这是由于中间推理步骤解释了绘制答案的方法。如图7所示,LLM仅生成一个令牌的文本。每个新令牌都需要对模型的完整前进。因此,如果构想的模型给出答案的两倍非属性模型需要以双重计算成本招募一代的两倍。它还将直接影响使用API​​的成本 - 计费通常基于处理和形成的令牌数量。图7:LLM中逐个代币。在每个步骤中,LLM都会捕获至今形成的完整结论,并预测下一个令牌 - 根据令牌仪,可以代表单词,子字或标点符号。新生成的令牌与以下内容相关联并用作下一步的输入。这种迭代解码过程既用于通用语言模型和评估模型。这直接从一开始就具有LLM实施和推理方法的重要性。这是了解其工作方式的最佳方法之一。如果我们了解LLM以及这些模型的工作原理,我们将更好地理解这一点的权衡。 7。LLM推理摘要涉及使用中间措施(思维链)进行系统明显地解决多步骤任务。传统的LLM培训分为几个阶段:预训练,语言模式的模型从大量文本中学到;指令的微调可以改善模型对用户提示单词的响应;偏好的微调可以使模型的输出与人类的偏好保持一致。 LLM中的匹配模式完全取决于从数据中学到的统计关联,这可能会使文本生成流利,但缺乏明确的逻辑推理。 LLM以这些方式提高的能力:扩展时间计算扩展,以提高推理退休的能力(例如,思想思想的思想);对加固的研究,清楚使用奖励信号训练模型;使用更强的评估模型中的示例进行微调和蒸馏的给药。从一开始就构建理解模型可以为能力,限制,和计算权衡。以上是塞巴斯蒂安·拉斯卡卡(Sebastian Raschka)的新书《从一开始的推理》的第一章的主要内容。可以说,它通过一些基本的介绍为这本书提出了很好的基调。您认为推理的模型是什么?您对这本书的期望是什么?

0
首页
电话
短信
联系