北京华网天下

深度解析A/B测试、激活函数、主动学习策略及算法定义与应用

2025-02-13

来源：网络整理

A/B（A/B测试）

一个受控的实际实验，用于比较系统或模型的两个变体A和B。

（激活功能）

在人工神经网络的背景下，接受上一层的所有输入的加权总和被接受，并生成输出值以激活下一层的功能。

（）（主动学习（主动学习策略））

半监督机器学习的特殊情况，在这种情况下，学习代理可以以交互式方式查询数据库（通常是手动注释者），以获取新数据点的标签。

（算法）

清晰的规范如何解决某种类型的问题，这些问题可以执行计算，处理数据并执行自动推断。

（笔记）

元数据附着在一块数据上，通常由手动注释者提供。

区域（AUC）

机器学习中的一种方法是确定哪种模型在多个使用模型中的性能最高。

（人工智能）

机器学习中的一种方法是确定哪种模型在多个使用模型中的性能最高。

（人工神经网络）

由简单相互连接的单元（称为神经元）连续层组成的结构，这些单元与非线性激活函数交织在一起，这些功能可以模糊地回忆动物脑中的神经元。

规则（响应性规则学习）

一种基于规则的机器学习方法，用于在大数据集中发现变量之间的关系。

（自动解码器）

人工神经网络用于以无监督的非线性方式生成有效的数据表示，并且通常用于降低维度。

（自动语音识别）

计算语言学的子字段主要是关于通过计算机识别和翻译口语的方法。

（时间）（反向传播（基于时间的反向传播））

一种用于训练人工神经网络的方法，然后计算网络重量计算所需的梯度。

（批）

单个梯度更新中使用的示例集用于模型培训。

（贝叶斯定理）

统计学家使用的著名定理用来根据可能与存在有关的先前条件来描述事件的可能性。

偏见（偏见，偏见）（偏见（电感偏差，确认偏差））

感应性偏见：学习者使用的一组假设事项，以预测给定输入条件下未触及的输出。

确认偏见：以确认自己的信念或假设的方式进行搜索，解释，偏爱和回忆信息，同时更少注意与信息相矛盾的趋势。

偏见 - （自行车与方差权衡）

当数据科学家试图同时最大程度地减少因偏见和差异引起的冲突时，这种冲突不利于监督超出其训练设置的算法的算法。

（推动）

机器学习集合元算法主要用于减少监督学习中的偏见和差异，以及一系列的机器学习算法，这些算法将弱学习者转化为强大的学习者。

盒子（键盒）

完全包含一组点或对象的最小（矩形）框。

（聊天机器人）

计算机程序或AI，旨在通过对话与人类用户互动。

（分类）

从输入变量到离散输出变量的映射函数近似处理的任务，或从广义上讲，是指用于确定特定实例所属类的某种类型的机器学习算法。

（簇）

在机器学习中，将一组对象分组为一组无监督的任务，以便同一组中的对象之间的“相似性”（即，群集）比其他组的“相似性”更高的“相似性” 。

冷 - （冷启动）

系统无法将任何信息推断为未收集足够信息的用户或项目引起的潜在问题。

（合作过滤）

推荐系统中使用的方法用于通过从较大的用户组收集偏好来预测用户兴趣。

（计算机视觉）

机器学习的领域之一主要研究如何获得对图像或视频的高级理解。

（置信区间）

间隔估计可能包含未知总体参数的真实值。此间隔与置信度有关，该间隔用于量化间隔中参数的置信度。

（贡献者）

提供注释服务的手动注释者。

（CNN）（卷积神经网络（CNN））

一个深，喂养的人工神经网络类别，通常用于计算机视觉。

单元（CPU）（中央处理单元（CPU））

计算机中的电子电路通过执行指令指定的基本算术，逻辑，控制和输入/输出操作来执行计算机程序的指令。

- （k折 - ，-p-out-）（交叉验证（k折交叉验证，保留P方法交叉验证））

一组旨在评估预测模型结果如何推广到新数据集的过程。

- k折叠式验证

- 剩余的P方法交叉验证

数据（数据，数据，数据）（数据（结构化数据，非结构化数据，数据增强））

所有机器学习和人工智能项目的最基本要素。

非结构化数据：尚未处理的原始数据。文本数据是非结构化数据的完美示例，因为它没有格式化为特定功能。

结构化数据：以机器学习算法可以摄入的方式处理的数据；如果是监督机器学习，则是在平台上处理的标记数据。

数据增强：添加从内部和外部来源派生到数据集的新信息的过程（通常通过标签实现）

树（决策树）

一类监督的机器学习算法，其中数据根据给定参数或条件迭代分配。

深蓝色（深蓝色）

由IBM开发的国际象棋游戏计算机是世界上第一个在常规时限内击败卫冕世界国际象棋游戏和国际象棋比赛的卫冕世界冠军的全球象棋游戏系统。

深度（深度学习（深度强化学习））

与特定于任务的算法相反，基于学习数据表示的一系列更广泛的机器学习方法。深度学习包括监督学习，半监督学习或无监督的学习。

维度（降低维度，维度灾难）

尺寸还原：通过获得一组主要变量来减少随机变量数量的过程。另请参见特征选择。

维度灾难：在分析和组织数据在高维空间中发生的现象，这是因为尺寸越多，可用数据的量很少。

（word）（嵌入（单词嵌入））

一个实例中包含的某个数学结构的另一个示例，例如组为另一组的子组。

（集成方法）

在统计和机器学习中，集成方法使用多种学习算法来获得更好的预测性能，可以从任何组合学习算法中单独获得。与统计力学中通常无限的统计集合不同，机器学习集合仅由一组有限的替代模型组成，但通常可以在这些替代模型之间进行更灵活的结构。

（熵）

随机数据源传达的平均信息量。

（时期）

对抗网络_深度对抗网络_对抗网络GAN

在深度学习模型培训方案中，是完整培训数据集的培训循环。

（，）（功能（功能选择，功能学习））

变量用作模型输入。

（功能学习）

一组旨在自动发现特征检测或原始数据分类所需的表示形式的技术。

（虚惊）

结果造成的错误在不存在时拒绝虚无假设。

（报价报告）

结果是由于应该存在的结果而不会拒绝零假设引起的错误。

feed-（）（馈电（神经）网络）

一个人工神经网络，其中神经元之间的连接不会向后移动或形成循环。

F-（F得分）

该模型准确性的指标，该模型计算出准确性和回忆时计算得分。更具体地说，F分数是准确性和回忆的谐波平均值，最大值为1（完美的精度和回忆），最小值为0。

进出（垃圾进出）

特别是一个原则是，只要输入数据中存在缺陷，它将导致误导结果并产生毫无意义的输出，即“垃圾”。

数据（GDPR）（GDPR）

针对欧盟所有个人的欧盟制定的数据保护和隐私法规旨在控制公民和居民的个人数据的控制。

（遗传算法）

一种基于进化论的启发式搜索算法，进化反映了自然选择的过程，其中最适合环境的个体将被选择以产生下一代。

（甘斯）（甘斯）

无监督的机器学习中使用的一种人工智能算法是在零和游戏框架中的两个竞争神经网络的组合实现的。

单元（GPU）（图形处理单元（GPU））

专用的电子电路，使用并行处理体系结构，旨在快速操作和更改内存以加快图像渲染的速度，从而使其同时执行多个计算。

（真相）

通过直接观察（而不是推论）获得的信息。

- 在循环（人机合作）

人工智能协作（HITL）是人工智能的一个分支，它同时使用人类智能和机器智能来构建机器学习模型。在传统的“人机合作”方法中，人们参与了一个良性周期，在该循环中，对特定的算法进行了训练，调整和测试。

（）（超参数（超参数优化））

模型之外的配置无法从数据中估算，并且数据科学家将在模型培训过程中不断调整它。

手动确定训练特定模型的最佳配置。我

一个巨大的视觉数据集由1400万个网址的手工标记图像组成，并以20,000（20,000）类别的类别组织，设计用于视觉对象识别研究。

（图像识别）

计算机视觉中的问题是确定图像是否包含某些特定对象，功能或活动。

（推理）

通过将训练有素的模型应用于新的未标记实例来执行预测过程。

（信息搜索）

计算机科学领域旨在研究在文档中搜索信息，搜索文档本身，搜索描述数据的元数据以及搜索文本，图像或声音数据库的过程。

（）（图层（隐藏图层））

人工神经网络中的一系列神经元旨在处理一组输入特征，或广泛地处理这些神经元的输出。隐藏层：输出连接到其他神经元的输入的神经元层，因此无法直接将其视为网络输出。

-to-（元学习）

机器学习领域的一个新方向主要是研究算法如何通过分析自己的学习过程和改进它们来改变其归纳。

- 排序（分类学习）

使用机器学习来构建用于信息检索系统的排名模型。

费率（学习率）

在人工神经网络训练阶段的每次迭代中，梯度下降算法使用的标量值乘以梯度以获得结果。

（功能）

数学中使用的S型“逻辑”功能的逆函数，尤其是在统计中。

长期（长期和短期内存网络）

一种复发性神经网络的变体，可以用作解决梯度消失问题的解决方案。

（机器学习）

人工智能的子场通常使用统计技术来授权计算机“学习”无需明确编程即可逐步提高特定任务的性能的能力。

（机器学习生命周期管理）

机器学习系统。

（机器翻译）

计算语言学的子场，主要研究如何使用软件将文本或语音从一种语言转换为另一种语言。

（模型）

模型是机器学习系统通过培训过程从培训数据中学习的内容的抽象表示。

（蒙特卡洛法）

一种使用重复的随机抽样生成合成模拟数据的近似方法。

- （多模式学习）

机器学习的子场旨在将多模式信号结合起来，以解释并构建模型，以处理和关联多种数据类型的信息。

-task（多任务学习）

机器学习的子场，同时利用多个任务之间的相似性和差异来解决多个任务。

（天然贝叶斯）

一系列基于贝叶斯定理的简单概率分类器，并且在特征之间具有强大的独立性假设。

（命名实体标识）

信息提取的子任务旨在将文本中的命名实体识别为预定类别，例如名称，位置，语音的一部分等。

（NLP）（自然语言处理）

人工智能领域之一主要是研究计算机语言与人类语言之间的相互作用，尤其是如何处理和分析大量自然语言数据。

（神经网络）

参见人工神经网络

（神经元）

人工神经网络中的单元，该单元处理多个输入值以生成单个输出值。

节点

见神经元

（光学特征识别）

将图像打印，手写或键入文本转换为机器友好的文本格式。

（优化）

从可用替代方案中选择最佳选择（基于某些条件）。

（过拟合）

该模型可以识别噪声中的模式，而无意中地假设这些模式代表了基础结构。该模型的生成结果离特定数据集太近，无法将其很好地汇总到无形的观察结果中。

（模式识别）

对抗网络_对抗网络GAN_深度对抗网络

机器学习的领域之一集中在数据模式的（监督或无监督）识别上。

（最大）（投票（最大轮询））

将卷积层生成的基质减少到较小的矩阵中的过程。

（个人身份信息）

它可以单独使用，也可以与某些其他信息结合使用，以确定特定个人的任何信息。

（准确性）

正确数量的阳性结果除以分类器返回的所有积极结果的数量。

（预测）

通过输入实例推断培训模型的输出。

（预处理）

将原始数据转换为更易于理解的格式的过程。

（预验证的模型）

最初使用另一个数据集训练的模型的模型或组件。另请参阅：转移学习。

（主要组件分析）

使用正交转换将一组可能相关变量的观察结果转换为一组线性不相关变量（称为主组件）的过程。

（以前的技术）

在考虑新证据之前，代表特定数量的先前信念的概率分布。

（随机森林）

一种综合学习方法，通过在训练和输出每个单个树的结果的组合版本（例如均值或模式）的合并版本中构建大量决策树来起作用。

（召回率）

在所有相关样品中，正确归类为阳性的样品数量的百分比百分比。

单位（整流线性单元）

使用整流器函数作为激活函数的单位。

（递归神经网络）

人工神经网络的类别之一，其中神经元之间的连接沿序列形成有向图，从而使它们表现出时间定时动态时间行为，并使用其内部状态（内存）来处理顺序信号。

（，）（回归（线性回归，逻辑回归））

一组用于估计变量之间关系的统计过程。

线性回归：一种简单的回归类型，将特征作为输入和输出连续值的线性组合。逻辑回归：通过将S型函数应用于线性预测，可以在分类问题中为每个可能的离散标签值生成概率的回归类型。（回归者）

一个功能，一种解释变量，用作模型的输入。

（正则化）

引入其他信息以防止过度拟合的过程。

（强化学习）

机器学习的一个子场之一，主要是受人类行为的启发，研究代理应如何在给定环境中起作用以最大程度地提高累积奖励的概念。

（of）（可重复性（危机））

科学领域的方法论危机，学者们发现，在随后的独立研究人员或最初的研究人员本身的研究中，许多科学研究的结果很难或不可能复制或繁殖。

（受限的玻尔兹曼机器）

受限的玻尔兹曼机器（RBM）是一种生成的随机人工神经网络，可以学习其输入集上的概率分布。

半（半监督学习）

一类监督的学习技术也可以通过可用的无标记数据进行培训，通常将少量的标记实例与大量未标记的行相结合。另请参阅监督学习和无监督的学习。情感分析

使用自然语言处理，文本分析，计算语言学和生物识别识别，以系统地识别，提取，量化和研究影响状态和主观信息。

（语音识别）

请参阅自动语音识别

（统计分布）

在统计中，经验分布函数是指与样本的经验指标相关的分布函数。累积分布函数是一个步骤函数，在n个数据点中的每个数据点上都跳了1/n。其在测量变量的任何指定值下的值均小于或等于与指定值相对应的测量变量的观察值。

（监督研究）

机器学习任务主要是指根据示例输入/输出对学习映射输入到输出的函数。

（SVM）（支持向量机（SVM））

由单独的超平面正式定义的判别分类器类别，对于每个提供的标记的训练数据点，该算法输出一个最佳的超平面以对新示例进行分类。

数据（合成数据）

当无法收集足够的实际数据或原始数据不符合特定要求时，手动生成的数据。

在机器学习社区中非常流行的开源代码库，用于编程数据流跨一系列任务。这是一个符号数学库，也可以在机器学习应用程序（例如神经网络）中使用。

时间（时间数据）（时间序列（时间序列数据）））

一系列数据点记录在特定时间，并根据其出现顺序进行索引。

（数据）（测试（测试数据））

测试是在监督机器学习情况下使用保留数据评估模型最终性能的过程。

测试数据：数据科学家选择的可用数据子集用于模型开发的测试阶段。

（主题建模）

一类无监督的机器学习算法，这些算法使用聚类来查找文本数据中的隐藏结构并将其解释为主题。

数据（培训数据）

在有监督的机器学习情况下，可以构建基于数据并从中学到的算法。

培训数据：数据科学家选择的可用数据子集用于模型开发的培训阶段。

（转移学习）

机器学习领域，重点是利用获得的知识来解决特定问题并将这些知识应用于其他相关问题。

测试（图灵测试）

艾伦·图灵（Alan ）开发的测试，以评估机器表现出与人类相同智能行为的能力。该测试包括人机聊天。如果在测试室外目睹对话的评估者无法可靠地区分人类和正在测试的机器，则可以确定机器已经通过了图灵测试。

类型I（类I错误）

请参阅错误警报

II型（II类错误）

请参阅错过的报告

（不确定）

一系列可能包含真实值的值。

（合身不足）

机器学习算法无法正确捕获数据的基本结构，通常是因为模型不够先进或不适合当前任务；与过度拟合的含义相反。

（无监督的学习）

机器学习的领域之一包括用于描述未标记数据结构的功能的推断。

（核实）

使用保留数据评估培训模型绩效的过程；与模型性能最终评估的测试阶段相反，验证阶段旨在确定是否需要对模型进行任何迭代修改。

/（消失/爆炸梯度）

当数据科学家使用基于梯度的学习方法和反向传播训练人工神经网络时，它们被视为与误差函数的部分导数成正比的更新权重（考虑到神经网络中每个训练中的当前权重）。可怕的困难和主要障碍面临。

（方差）

由于训练集中对小波动的敏感性引起的误差，该误差被计算为随机变量与平均变量平方偏差的期望值。

互联网资讯

阅读原文

下一篇：深度学习中对抗攻击的威胁：神经网络的有趣特性与对抗样本分析

上一篇：风采 e 网方案策划书：展现自我，亮出风采的全面指南