人工智能之父图灵的生平与贡献:从密码破译到图灵试验

2024-12-18
来源:网络整理

1. 人工智能的起源

在下图中,我们可以看到两个角色:左边的角色是出演电影《模仿游戏》的演员。这部电影其实讲的是图中右边的人物,他就是人工智能之父阿兰·图灵(Alan)。

图灵的一生相对较短,但他的成就却非常伟大。他生活在第二次世界大战期间。电影《模仿游戏》讲述了图灵的第一个重要成就,即他如何破译了德国军队的密码并帮助他们赢得了二战。

他的存在对于人工智能的持续进化和发展有着重要的作用。除了破解德国密码外,他还进行了一些其他重要工作,例如创建大型计算机和超级计算机。

那么我们为什么要谈论图灵呢?因为他做了一个非常著名的实验,图灵测试。

图灵测试

图灵实验是人工智能领域的一个重要实验,旨在测试机器是否能够表现出与人类相似的智能。这个实验的基本过程就是将被测试的人与机器分开。被测试者无法确定问题的主体是人还是机器。他可能会问一些问题,然后这个人决定答案是来自人类还是机器。这样就可以根据答案来判断机器答案是否被误判为人类答案。

图灵的实验虽然看似简单,但对于人工智能领域的发展具有重要意义。通过这个实验,我们可以评估机器是否能够模拟人类智能,为提高机器智能的过程提供一个标准。图灵实验的出现不仅推动了人工智能的研究和发展,也引发了人们对智能和意识本质的深入思考。

图灵实验中,一个重要指标是“70%”。这个指标意味着,如果机器的答案能够让提问者有70%的概率认为这个答案来自人类而不是机器,那么这台机器就可以说通过了图灵测试。当然,这个指标是20世纪50年代制定的。随着技术的进步,现在的机器应该更容易达到这个指标。

用一个简单的例子来说明。如果你问机器人:“你会下棋吗?”它可能会第一次回答:“是的,我可以。”如果你再问它:“你会下棋吗?”机器人可能仍然会回答:“是”如果再次询问,它仍然会回答:“是”。

从逻辑上来说,它的答案是正确的。但为什么我们认为它是机器人而不是人工智能呢?

这是因为标准不仅仅是正确性,还有其他因素在起作用。

我们来看另一种情况,假设受访者是一个人。你问他:“你会下棋吗?”他的第一个回答是:“是的,没问题。”但如果你第二次问他,他会说:“是的,我不是。”你已经说过了吗?”如果你再问他,他会说:“你生气了吗?为什么你老是问同样的问题?”

您是否注意到他的第三个答案实际上是错误的?但我们仍然会知道这是人类的答案。

这是因为人工智能是一门复杂的跨学科学科,涉及计算机科学、数学、心理学、哲学、推理、生物学、社会学等多个领域。人工智能不仅仅是简单的对与错,它需要深入的科学知识和理解。

图灵实验是一个重要且标志性的实验,用于测试机器是否能够表现出类人智能。然而,正确回答问题并不意味着机器拥有人工智能,因为人工智能还涉及推理、哲学等更高层次的思维能力。

此外,人工智能也有其局限性。有些问题涉及隐私或个人选择,机器可能无法回答。例如,当被问及婚姻状况时,如果一个人选择不回答,这并不意味着他是人工智能,而只是说明这是他个人的选择。

2.什么是模型?

模型概念

模型是指基于参数和架构构建的结构。参数是指可调整的值。每个参数控制一个节点的值。这些节点可以控制各种开关。在下图中,我们显示了一个具有三行的模型,但模型中实际上可能有更多行。我们经常听到模型参数,例如6B或130B,其中B代表十亿。例如,6B表示模型大约有60亿个参数,每个参数控制一个节点的输入和输出。节点的输出是由参数决定的,因此参数越多,模型就越复杂。

此外,架构也是模型的重要组成部分。这里,我们也展示了一个三层架构,但实际上这些参数不会简单地排列成一行,而是有多个层次。复杂的模型可能有数百层或更多层。这些层和参数最终形成一个完整的模型。一旦我们训练了模型,它就固定下来了。相同的输入数据可能会产生相同的输出,但也可能会有所不同。

简而言之,模型就像基于概率的游戏。例如,假设我今天被朋友赶出了家门。那么根据我输入的信息“今天我被朋友强奸了”,这个模型会以90%的概率输出结果“放鸽子走”,而其他结果的概率很低。

该模型实际上是一个基于概率的游戏。我告诉它我被朋友欺骗了,它处理后输出的结果被“丢弃”了,而且这个结果的概率非常高。这就是这个模型要实现的目标。

类似于一个组织,它会给我提供这个模型,并填写相应的内容。具体来说,我们只能看到模型的输入和输出,但不知道模型内部是如何工作的,即它如何根据输入生成输出。因为模型的架构和参数非常复杂,涉及的节点和参数很多。但通过大量的训练,模型可以学习输入和输出之间的关系,从而可以预测输入。

模型训练

模型训练是一个迭代过程。在训练过程中,我们首先给出一个句子,让模型猜测下一个句子可能是什么。然后,检查模型的猜测答案是否正确。如果猜测错误,我们需要调整参数,让模型更接近正确答案。重复该过程,可能进行多次迭代,直到确定模型的参数。最后,我们训练一个能够推理和猜测的模型。

具体来说,我们将给定的句子作为输入,让模型预测下一个句子可能是什么。然后我们检查模型的预测答案与实际答案是否一致。如果不一致,我们会根据差异给出一个分数,比如9或0。接下来,我们根据分数调整模型的参数,使其更接近正确答案。这个调整过程就像转动旋钮,让模型更接近我们期望的答案。

这个迭代过程会反复重复,不断调整模型的参数,直到得到满意的结果。这个过程可能会重复数百甚至数百万次。在每次迭代中,我们为模型提供新的输入,评估模型的输出,并根据评估结果调整参数。这个过程一直持续到模型的参数确定为止。

最终,经过迭代训练过程,我们将得到一个训练有素的模型,可以根据给定的输入进行推理和猜测。

AI大模型要点

1.模型参数较多。这些参数可能是一个难以想象的数字,可能达到数十亿,甚至数百亿、数千亿。模型的数量可能是天文数字。与我们通常在代码中编写的少量参数相比,该模型中的参数数量非常庞大。

2.模型结构非常复杂。我们可以看到它包含不同的旋钮。模型的复杂性与其大小成正比。一般型号的容量可能只有几GB,而更复杂的型号可能达到几十GB甚至更多。

3.预训练和微调。一个成熟的模型不是一开始就获得的,而是通过反复训练获得的。这个过程可能需要多次迭代和微调,消耗的计算量是巨大的。

4.模型具有多模态分类能力。除了文本之外,该模型还可以处理音频和图像等多种形式的数据。这种融合模态的能力使得模型不仅限于处理文本,还可以应用于其他领域。

5.模型对计算资源的需求非常高。众所周知, 在计算资源方面表现出色。它与人工智能的发展相辅相成,为快速发展提供助力。由于模型参数数量多、结构复杂、需要多次迭代训练,对计算能力的要求也很高。普通的CPU可能无法支持这种并行计算,所以我们需要使用专门的GPU来进行模型训练。

3.传统深度学习模型

深度学习是人工智能的一种方法,其最初目标是模拟人类神经系统。神经元是神经系统的基本单位,它的结构用来构建我们的模型,也就是人工智能的模型。然而,神经元实际上是生物学领域的一个概念。如前所述,人工智能涉及多语言、多学科的交叉。

3dmax模型导出ai_ai模型_ai产品经理能力模型

神经元有许多突触,可以接收各种信号,例如触觉、视觉、温度等。这些信号通过细胞核和神经网络传输后,大脑会产生信号告诉我们如何处理它。例如,如果我碰到热的东西,我会迅速将手移开;如果我看到什么,我可能会做出相应的行为。这两个模型其实是一样的,就是利用神经网络来处理不同的输入,通过运算给出一个输出。因此,我们的人工智能神经元模型实际上和人类生物神经元模型非常相似。

或者我们将神经网络比作多层三明治。三明治有很多层,可能有数百层,甚至数千层。在神经网络中,各个层和节点之间的连接是杂乱的。我的输入可能传给你,你的输入也可能传给我,最终形成统一的输入和输出,从而构建人工网络模型。 ,该模型类似于三明治状的多层结构。

神经网络( )

有时我们会使用一些开源的神经网络包,其中会出现缩写NN。这个缩写实际上是NN的缩写,代表NN的某个组成部分。

刚才提到,模型实际上是一个黑匣子。我们不知道它的具体成分,而且非常复杂。当我们输入一串单词时,这个框就会给出一个输出。

例如,我们可以使用神经网络NN来识别一只猫,它告诉我这只猫的概率是0.97%,狗的概率是0.01%,其他的概率是0.02%。通过这样的神经网络,我们的系统可以确定这是一只猫,因为概率达到了97%,可以识别出是一只猫。当然,识别错误的可能性也是存在的。例如拍摄角度不佳等原因可能会导致识别不正确。

顺便说一句,这种错误很普遍。就像测试一样,如果给你一张图片,让你判断是猫还是狗,你能百分百正确吗?显然不是,就像考试只能考90分一样。为什么要求AI给你100分?

这是我们后面会提到的。人工智能并不绝对准确。它可能是准确的,但并不准确。

深度神经网络(深度)

深度神经网络是一种多层无监督神经网络,利用上一层的输出特征作为下一层的输入进行特征学习。经过逐层特征映射后,现有空间样本的特征被映射到另一个特征。空间来学习现有输入的更好的特征表示。深度神经网络具有多种非线性映射特征变换,可以拟合高度复杂的函数。

循环神经网络 ( )

循环神经网络是一种具有循环连接的神经网络结构。在RNN中,信息可以在网络的不同层之间传输,并且这种传输按顺序发生,即第一层到第二层、第二层到第三层,依此类推。然而,传统的顺序执行模型可能无法取得良好的效果。

为了解决这个问题,RNN引入了循环连接,使得每一层都可以循环连接到前一层。这样,输入和输出就可以在网络中循环传递,使网络变得更加复杂。因此,我们将这种具有循环连接的神经网络称为循环神经网络(RNN)。循环神经网络可能比没有循环连接的网络具有更高的准确性。

卷积神经网络 ( )

卷积神经网络是一种图像处理技术。在卷积神经网络中,图像被表示为静态图形,但实际上它可以动态变化。卷积神经网络通过添加卷积层来处理图像的不同特征。这些功能主要用于图像识别等应用。卷积神经网络的核心思想是利用卷积来整合信息。

在卷积神经网络中,卷积运算类似于下面的块状结构。它的作用是将输入与周围的元素结合起来。这种组合不仅涉及当前元素,还涉及周围元素。卷积运算是一个适应输入动态变化的迭代过程。

通过卷积神经网络,可以实现图像中物体的识别。

例如,假设我们有一个可能包含宝塔的图像。宝塔可能出现在图像的左侧、右侧、上方或下方,甚至可能会旋转。使用卷积神经网络,我们可以独立于周围图像来识别宝塔的形状、位置和旋转。

此外,卷积神经网络还可以用于图像轮廓识别。通过设置合适的卷积核进行计算,我们可以快速识别图像中物体的轮廓。即使图像不够清晰,也可以通过卷积神经网络识别物体的轮廓。我们可以在图像上显示轮廓以获得更清晰的视图。

4. 大模型

最近出现了一个重要的模型,称为。你可能听过很多次,但它并不是指大家所熟知的变形金刚,而是指一个转换器

注意机制

模型中,有一个非常重要的概念,就是注意力机制。

例如,给每个人10秒钟的时间来观察这张图片。你注意到什么?

显然,大家一定都注意到了这只蓝色的鸭子了。

但你注意到这只鸭子的方向了吗?有的朝前,有的朝左,有的朝右?

你可能没有注意到这一点,所以我们可以这样说:这只蓝色的鸭子可能具有更高的重要性,而其他方向的鸭子权重较低,对我们的观察影响较小。那么,这里的机制就是这样的情况。

让我们看另一个例子。看下面的图片。你能读懂内容吗?

当你读完这句话时,你会发现这句话的顺序是错的。尽管如此,我们仍然可以轻松地阅读它。为什么?这正是我们前面提到的注意力机制的作用。

从程序员的角度来看,注意力实际上是一个加权求和的过程。

以刚才第一张图为例。蓝鸭子的份量很高,一眼就能认出来。然后是第二张图。有些零件的重量可能较低,但这并不影响我们的阅读。 。

接下来,我们从图中可以看到,我输入了一个句子,然后将其分成了多个块。每个块都有相应的权重。例如,第一个块的权重为1,第二个块的权重为2。以此类推。最后进行运算和归一化,得到最终结果。也许在我的句子中,有些部分的权重较高,有些部分的权重较高,有些部分的权重被忽略。较高重量的部分会对结果产生影响。

模型架构

大模型是在 2017 年的论文《Is All You Need》中提出的。我们现在所知道的一切都是基于这个架构。这篇文章的原文比较理论化。如果有兴趣,可以搜索原文,自行阅读。

这是这个大型模型的架构图。其实这个架构图的含义不需要深入理解。可以简单理解为一个加权求和的过程。这是一个输入数据。我们可能会对它进行一些处理,也就是转换数据的过程。

在 中,我们使用了很多方法来转换数据,然后将其输入到注意力机制中。我们会分析这些加权和的结果,哪些权重高,哪些权重低,然后求和。然后我们会进行反馈,然后进行线性化、归一化等操作。

可以说对传统的神经网络进行了一些优化。例如,它允许机器注意到整个输入的不同部分之间的相关性。句子中的每个单元捕获整个句子,而不仅仅是其中的一部分。此外,还对并行操作进行了优化。与之前的循环神经网络不同,它的操作是并行的,这可以提高效率。

ai模型_3dmax模型导出ai_ai产品经理能力模型

下面是一个例子,我们输入“知识就是力量”

输入的句子被分成不同的部分,系统内部识别出不同部分的权重后,再转换成英语。我们只能看到一个变换的过程,但实际上模型是复杂计算的结果。

BERT 和 GPT

大家所熟悉的典型大模型是在2018年推出的。其实在此之前,也是在2018年,推出了一个名为BERT的大模型。 BERT 是一种双向编码模型。

BERT的主要目标是识别语言模型,从识别的角度理解句子的上下文和其他内容。 GPT 使用不同的方法。它不理解句子,而是使用深度生成来生成应根据给定输入返回给用户的语言。 BERT 的目标是识别下一个可能的内容,而不是生成内容,并且存在一些细微的差异。两者都可以在同一场景中使用,下面的图表对它们进行了比较。

下图是家谱。它有4种颜色,但实际上只有3个主要部分。

第一个是粉色的,被称为BERT。 BERT 是一种仅加密模型,这在旁边的小字中有所说明。 BERT 是其中最著名的模型。

第二个是绿树,既进行加密又进行解密,即求和。在这个领域,你可能听说过清华大学这个模型的应用。该模型是一种加密和解密同时实现的方法。

第三棵树是仅解密模型。到目前为止,这棵树是最大的。这棵树中包含的是,羊驼家族的一员,还有很多相关的衍生模型,比如等等,都是基于羊驼家族开发的。

基于核心的模型和基于GPT的模型都是仅解密模型。事实上,这些模型都是基于模型的实现。虽然每个厂商的实现方式可能存在差异,但这并不影响他们都是基于“Is All You Need”来实现的方式。

多模式

相信大家对于多模态的概念都不陌生。之前我们提到的问心一言就是一个多模态应用。我们可以通过图像、文字、视频等方式传达信息。这些不同的载体可以相互转化,从而实现非常灵活的通信。比如文本可以生成图片,图片可以生成文本等等。这个原理其实很简单。它基于一(提示)和一(管理者)的概念,并且可以相互转化。

5. 模型微调和推理

模型的微调和推理过程是一个迭代的预训练过程,非常艰巨和复杂。例如,像这样的公司运行的训练可能会花费大量金钱和时间,并使用大量 GPU 进行计算。

普通个人和公司无法承担这样的费用,只能购买GPU在公共互联网上进行训练。一次培训可能只需要几十到几百美元,而生成一篇文本可能需要数百美元。这对于普通企业来说可能无法承受,只有一些大厂家才能承担这样的费用。目前,能够开展此类培训的公司只有微软、微软这样的公司。其他公司可能无法开展此类工作。

该模型是反复迭代的结果。我们可以使用另一种方法对其进行微调。我们可以利用私有域数据来微调这些模型,以适应我们实际使用的私有环境。

LoRA调优

左边是LoRA官方的架构图。左边是输入,输入模型,最后输出结果。例如,当我询问今天是星期几时,它回答说今天是星期三,这就是输入和输出的示例。

左边是预训练的模型,右边是调整后的模型。调优过程和预训练模型的输出结果并行进行,然后将调优方法的输出结果与预训练模型的输出结果结合起来,并将结果提供给用户。

例如,当您询问今天是一周中的哪一天时,它可能会回答说是星期四并增加调整参数。调优过程是一个从降维到升维的过程。我可以调整参数的维度使计算更容易,然后增加维度来调整模型参数的维度。最后,将结果合并。这就是LoRA调优的原理。

调音

右边是官方的架构图,展示了它的优化过程。此过程调整输入,而不是模型本身。通过调整输入,即提供给模型的初始信息,可以改变模型的输出。

例如,当我们询问今天是星期几时,原来的流程是ABC,调优后就变成了CBA。然后将调整后的输入输入到模型中,最终的输出结果将与之前的不同。这个过程称为“”。在这个过程中,会进行调整,最终得到输出结果。

需要说明的是,这个调优过程可能是一个迭代的过程,不可能一次性得到最终的结果。整个过程可能比我们想象的要复杂,但基本原理如上所述。

推理

接下来我们来谈谈推理。事实上,推理也是通过训练这个模型来进行的。比如我们给模型提供一组真实的数据,然后真实的数据经过模型的处理,给出一个结果。这个过程就是推理。

对于这个模型,训练之后,我需要进行测试和推理。推理过程就是提供真实数据作为模型的输入,然后模型给出结果。刚才提到的训练过程实际上是一个循环过程,但推理过程是一个线性过程。

比如,在推理过程中,我输入了一张猫的图片,模型告诉我这张图片里有猫的概率是91%。这个概率已经很高了,基本可以确定是猫了。

预测

推理和预测是两个相似的概念。在机器学习领域,预测更多指的是对未知事物进行猜测。我预测某事是什么。推理更多的是根据现有的历史数据和其他信息来推断事物的本质。

至于预测,我不知道它到底是什么,我只是猜测它可能是什么。推理更多地依赖于根据现有信息来推断事物的本质。预测更多的是解释将要发生的事情,而推理更多的是对已经发生的事情进行推理,作为验证。

不过这两个概念的区别比较小,不建议太纠结于推理和预测的细微差别,因为它们的应用场景是相似的。比如我预测下一个结果会是什么,或者问今天是什么日子,我预测我会回答什么,推断出的答案可能是最大可能性,这其实没有太大区别。

零射击、一射击、少射击

我们可能会听到一些专有名词,例如零次射击、一次射击和几次射击。这些技术的主要目标是克服传统方法在处理特殊情况时难以获取大量样本数据的困难,以及在样本量极少或无样本时实现对新类别或新任务的快速适应数据。

零样本是指模型在零样本的情况下能够正确识别物体的特征。也就是说,在没有看到新类别的任何样本的情况下,利用模型的泛化能力来预测新类别。例如,如果我告诉模型猫是什么样子,狮子是什么样子,马是什么样子,但我不告诉模型老虎是什么样子,我会将老虎描述为看起来像狮子,属于猫科动物,有斑点。这样告诉模型后,它可能会自己学习老虎的特征。

另外,如果我看到一张动物的照片,它不是狮子,但它看起来像狮子,有点像猫,而且有条纹,那么我就知道它是老虎。这就是所谓的零样本,利用模型的泛化能力,对训练阶段没有接触过的类别或任务进行预测。

一是指当只有一个样本时,通过这个样本进行学习和预测。具体来说,One Shot 需要对每个新类别进行学习和预测,并且该类别中只有一个样本。例如,我给模型一张爱因斯坦年轻时的照片,但它也将爱因斯坦识别为年长的男人。这就像人脸识别技术。即使您只提供正面照片,它也可以识别您的个人资料或洗脸后的样子。

Few Shot是指在样本较少的情况下,通过学习从这些有限样本中提取的知识来泛化到新任务或类别的能力。在少数镜头学习中,我们为模型提供少量样本,以便它在看到新类别时能够做出准确的预测。例如,如果我们向模型提供几个猫和狗的例子,它可以学习它们的特征和差异,并在看到新的猫或狗图片时正确分类。

过去,我们可能更多地听说过Few Shot 的技术。但现在,在行业内,像 Open AI 这样的模型实际上正在采取零射击方法。这在我们之前的文章中已经提到过。例如,我们没有告诉模型有关烧红的铁的信息,但它能够识别出铁如果触摸就会伤害到人。这就是Zero Shot的作用,不需要提供相关信息就能识别,这就是大模型的真正价值所在

6.最后说

本次分享,我们更注重讲解AI大模型技术的基本概念,帮助大家入门AI智能。在后续的系列分享中将会对相关知识进行更深入的介绍。如果您有兴趣,可以继续关注公众【神州数码云基地】。

需要强调的是,很多人可能对专业的AI技术感到困惑。这很正常,没必要太纠结。因为这些知识大多是由研究人员和领域专家研究的。作为行业从业者,我们需要学习的是如何利用AI,以及如何利用AI来实现不同的目标。通过了解和应用人工智能技术,可以更好地发挥其作用,为各行各业带来更多便利和创新。

公众号搜索神州数码云基地,回复关键词【AI大模型技术演进】即可获取原始PPT素材

分享