通达信量化接口-阿里云ACP考试题库单选题其二

单选题：

阿里云机器学习PAI平台支持将生成的训练模型一键式发布成什么类型的接口，从而实现从模型到业务无缝对接的?

答案解析

PAI支持将PAI-Studio、PAI-DSW及PAI-Autolearning生成的训练模型一键式发布为RestfulAPI接口，实现模型到业务的无缝衔接，再通过HTTP请求的方式调用该服务。对于AliyunAPI、PAIAPI和StudioAPI这三个并不是训练模型一键式发布的接口，所以是不正确的。

现有一组片要根据片内容分类，比如建筑、汽车等等。使用阿里云视觉智能平台的以下哪种能力可以实现这个需求?

A元素识别B风格识别C场景识别D通用像打标

答案解析

像打标可识别上千种标签，覆盖到日常生活各场景中常见的内容品类，如电脑、水杯、汽车等。可以广泛应用于智能像管理、视频打标等场景，故选“通用像打标”。

语音识别是一个过程，涉及多学科，语音识别技术的发展集中在哪方面?

A声学模型B语言模型C解码器D文本翻译

答案解析

声学模型是选择合适的语音建模单元，并利用可用的语音数据可靠、高效的估计相应模型的参数；语言模型是基于文本训练数据估计模型参数，并较好的处理数据稀疏问题；解码器是将给定的声学模型和语言模型，建立一种高效的处理方式寻找到最优的模型路径，因此在语音识别中的关键问题是解决声学模型和语音模型的对应关系，也就是解码器，所以解码器是语音识别技术发展的集中所在。

在使用K-means算法对数据集进行聚类操作时，数据集中的一个点到中心点的欧式距离是多少?

答案解析

两点和的欧氏距离公式是√^2+〖〗^，因此选“5”。

语音信号处理直观上是获得语音信号的离散表示，语音信号这样处理的目的不包括哪项?

A理解语音B方便语音传播和复制C发现声源的一些特征D“看"到语音

答案解析

在强化学习模型的训练过程中，设置较大的学习率，表示该模型采用新尝试结果的概率更，保留旧结果的概率更。

A高，高B高，低C低，低D低，高

答案解析

学习率越大，则在训练过程中模型更容易接受新尝试的结果，抛弃掉旧的结果，因此新尝试结果的采用比例更高，旧结果的比例更低了

下列关于朴素贝叶斯的描述中，描述错误的是?

A朴素贝叶斯属于生成学习B模型结构简单C对于缺失数据比较敏感D朴表贝叶斯假设样本的特征之中彼此独立，没有相关关系

答案解析

生成模型求的是联合概率，常见的生成模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmannMachine等，所以朴素贝叶斯属于生成学习是正确的；朴素贝叶斯的优点：

朴素贝叶斯模型分类效率稳定；

对小规模的数据集表现很好，能处理多分类问题，适合增量式训练，尤其是数据集超出内存后，可以一批批的去训练；

对缺失数据不太敏感，算法比较简单，常用于文本分类，所以朴素贝叶斯模型结构比较简单是正确的，而对于确实数据比较敏感是错误的。朴素贝叶斯成立的假设就是样本的特征之中彼此独立，没有相关关系，故该选项是正确的。

阿里云智能语音合成服务的三个常用产品是短文本语音合成、长文本语音合成、语音合成定制，有关短文本语音合成的相关描述不正确的是哪个?

A提供将输入文本合成为语音二进制数据的功能B短文本一次不能超过300个字符。超过300字符的内容会被截断C输入文本采用任意编码，系统自动识别D支持设置语速、语调和音量、不同类型的声音

答案解析

支持输出PCM、WAV和MP3编码格式数据；支持设置语速、语调和音量；支持设置不同场景及风格的声音；支持一次性合成300字符以内的文字，其中1个汉字、1个英文字母或1个标点均算作1个字符，超过300个字符的内容会被截断；仅支持采用UTF-8编码的文本输入，并不支持其他格式的输入文本，所以输入文本采用任意编码，系统自动识别是错误的。

阿里云智能语音交互是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互功能;下述所列条目中，不属于语音识别产品优势的是哪项?

A识别准确率高B听感自然、流畅、音色多样C超快解码速率D独创模型优化工具

答案解析

阿里云语音识别产品的优势包括识别准确率高、超快的解码速率、独创的模型优化工具和广泛的领域覆盖，而听感自然、流畅、音色多样是阿里云语音合成产品的优势。

在机器学习的建模过程中，针对没有标签信息的数据一般选用哪类方法进行建模分析？

A有监督学习B分类模型C无监督学习D回归模型

答案解析

根据题干中提到的没有标签信息可以判断需要使用无监督学习的方法进行建模分析；有监督学习需要标签心思，所以不正确；分类模型也需要模型信息，回归模型也是监督学习需要标签信息不符合题干要求。

1人工智能技术现在发展到哪一个阶段?

A弱人工智能B强人工智能C超人工智能D全人工智能

答案解析

根据人工智能的定义，弱人工智能是擅长于处理某一单个方面的人工智能。比如AlphaGo只能下围棋，Siri目前只能作为你的语音助手。

1如下关于岭回归的特点描述中，描述错误的是?

A通过添加额外误差，对多重共线性数据进行回归拟合B降低过拟合风险C处理多重共线性数据D支持独立变量的自动筛选

答案解析

岭回归通过引入L2范数正则化,确能显著降低过拟合的风险，故“降低过拟合风险”正确，岭回归可以处理多重共线性，岭回归是在平方误差的基础上增加正则项，所以“通过添加额外误差，对多重共线性数据进行回归拟合”和“处理多重共线性数据”正确，岭回归不支持独立变量的自动筛选，故选“支持独立变量的自动筛选”

1迁移学习的应用在一定程度上是可以有效的提升模型的性能，以下哪种场景可以选用迁移学习方法？

A源领域数据和目标数据比较相似B源领域数据和目标域数据不相关C源领域数据和目标域数据相差很大D任何数据都可以

答案解析

当源域和目标域的任务毫不相关时有可能会导致负迁移，所以不能选用源域数据和目标数据不相关或者差别较大的进行迁移，因此要选用源领域数据和目标数据比较相似的。

1下列选项中，哪一项不属于基于样本的迁移学习的特点?

A根据一定的权重生成规则，对数据样本进行重用，来进行迁移学习B具有较好的理论支撑、客易推导泛化误差上界，对领域分布差异较小时效果良好C代表算法TrAdaboost方法D常与深度神经网络进行结合

答案解析

在迁移学习中分为多类，其中基于样本的迁移学习方法就是根据一定的权重生成规则，对数据样本进行重用，来进行迁移学习，所以是正确的。TrAdaBoost算法是典型的迁移学习方法，该算法在源数据和辅助数据具有很多的相似性的时候可以取得很好效果；虽然实例权重法具有较好的理论支撑、容易推导泛化误差上界，但这类方法通常只在领域间分布差异较小时有效；迁移学习的方法并不仅仅可以与深度神经网络进行结合使用，也可以和传统的机器学习方法进行结合，比如TrAdaBoost就是rAdaBoost相结合的典型应用，所以常与深度神经网络进行结合是不正确的。

1阿里云智能语音识别服务的三个常用产品是一句话识别、实时语音识别、录音文件识别，有关一句话识别的相关描述不正确的是哪个?

A一句话识别是对时长较短的语音进行识别B一句话识别可集成在各类App.智能家电、智能助手等产品中C一句话识别服务针对时间超过一分钟的语音，系统会自动按一分钟时长进行分割处理，即按每分钟时长输出识别效果D一句话识别的时效特点就是实时性

答案解析

一句话识别是对时长较短的语音进行识别，适用于较短的语音交互场景；可集成在各类App、智能家电、智能助手等产品中；实时性是实时语音识别产品服务的特点，即对长时间的语音数据流进行不断地、实时识别；所以选C。

1阿里云像搜索服务中的布料像搜索，可以在布料库中准确的找到与输入片中布料什么特征相同或相似的布料?

A颜色B纹理C质地D案

答案解析

布料像搜索通过输入布料片，可以在布料库中准确地找到与输入相同或相似纹理的布料，返回对应的布料信息。

1如下相关选项中，哪一项是目前已经可以实现的人工智能能力?

A可以进行独立思考和主动创新B完成单一功能，如人脸识别，网络搜索，语音助手等C具备人类意识，可以计划并解决问题D所有领域比人类聪明

答案解析

目前人工智能的落地产品较多的是集中在实现了单一的功能，比如人脸识别，在限定空间内进行网络搜索，语音助手等相关内容；而可以进行独立思考和主动创新、具备人类意识，可以计划并解决问题以及所有领域比人类聪明，这些在现阶段的人工智能技术都无法做到，还需要比较长远的发展。

1岭回归分析是一种专用于共线性数据分析的有偏估计回归方法，对于对病态数据有较好的拟合能力，下面哪种情况使用岭回归可以获得较好的效果？

A样本数量远大于自变量的个数B自变量之间不存在共线性C自变量个数少于样本量D自变量个数多于样本量

答案解析

岭回归模型是在平方误差的基础上增加正则性，L2范数正则化项可以使回归系数进行衰减。只有在显著减少目标函数方向上的参数会保留的相对完好，在无助于目标函数减少的方向上的分量会在训练过程中因正则化而衰减掉。因此在自变量个数多余样本量的情况下会有较好的拟合效果

1Q-Learning是强化学习算法中value-based的算法，Q是指在给定状态s的情况下，采取行动a后，后续的各个状态所能得到的？

A最小值B最大值C期望值D总和

答案解析

Q即为Q就是在某一时刻的s状态下，采取动作a动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

20.某种聚类算法是将问题空间量化为有限数目的单元，形成一个空间网格结构，随后在这些网格之间进行聚类，最终由临近的高密度单元组成一个类，此种聚类算法是?

A基于划分的聚类B基于层次的聚类C基于网格的聚类D基于密度的聚类

答案解析

本题所讲的是基于网格的聚类算法的定义，这类算法计算速度比较快；基于划分的聚类方法是在给定一个由n个对象组成的数据集合，对此数据集构建k个划分，每个划分代表一个簇，即将数据集划分成多个簇的算法；基于层次的聚类方法是对给定的数据集和进行层层分解的聚类过程；基于密度的聚类方法的思想是只要某簇邻近区域的目睹超过设定的某一阈值，则扩大簇的范围，继续聚类，这种方法可以获得任意形状的簇。因此本题选择基于网格的聚类算法。

2下述关于阿里云的普通话识别模型DFSMN-CTC-SMBR的描述说明不正确的是哪项?

A采用minibatch方式进行模型训练B基于middleware的多机模型训练C采用joinCTC-CE准则D采用单纯音节模型

答案解析

普通话含同音异义词，这会导致很多替换错误，因此在模型中加入了基于CTC的普通话语音识别系统所产生的替代错误，也就是采用joinCTC-CE准则，所以是正确的；在模型中采用了1319个音调音节，并不是采用了单纯音节模型；采用minibatch方式和基于middleware的多机都是为了提升模型的训练速度，毕竟在普通话识别模型DFSMN-CTC-SMBR中有2万小时的普通话语音和2000多万的句子，若是不采取这种训练方式训练模型的周期将会非常长，因此是正确的。故本题选择采用单纯音节模型

2k-means算法是无监督聚类算法，若现在我们有三个点，分别是a1,a2,a3,利用k-means算法选择两个初始中心点x1和x2,计算各点到两中心点的距离，其中聚类到中心点x1的是哪些点？

答案解析

分别计算三个点a1,a2,a3到x1,x2的距离，利用公式sqrt^2+^，得到a1到xx2的距离分别是1和0a2到xx2的距离分别是61和24,a3到xx2的距离分别是1和2通过比较距离可以看出，a1和a3距离x1的距离更近，因此a1,a3正确

2下列选项中，哪一项属于PAI-studio建模的主要特点?

A支持拖拽方式搭建学习实验B交互式编程环境C支持资源实时监控D支持在线标注

答案解析

阿里云ACP考试题库单选题其二

PAI-studio建模的主要特点该平台封装了200余种经典算法，让用户可以通过拖拽的方式搭建机器学习实验；PAI-DSW是一款云端机器学习开发IDE，为您提供交互式编程环境，适用于不同水平的开发者，并且支持资源实时监控，算法开发时，可以显示CPU或GPU的使用情况。所以交互式编程环境和支持资源实时监控不是PAI-Studio的特点；AutoLearning是一个自动机器学习平台，支持在线标注、自动模型训练、超参优化及模型评估。用户只需要准备少量标注数据，并设置训练时长，就可以得到深度优化的模型，所以在线标注并不是PAI-Studio的特点；

2阿里云智能语音产品采用了哪项解码技术，保证在不损失识别精度的基础上将解码速率提升3倍以上?

答案解析

阿里云通过LFR技术将识别速度加速3倍以上，进一步的DFSMN相比于LCBLSTM在模型复杂度上可以再降低3倍左右。传统的FNN系统，需要使用拼帧技术，解码延迟通常在5-10帧，大约50-100ms。而去年上线的LCBLSTM系统，解决了BLSTM的整句延迟的问题，最终可以将延时控制在20帧左右，大约200ms。对于一些对延时有更高要求的线上任务，还可以在少量损失识别性能的情况下，将延迟控制在100ms，完全可以满足各类任务的需求。LCBLSTM相比于最好的FNN可以获得超过20%的相对性能提升，但是相同CPU上识别速度变慢，这主要是由模型的复杂度导致。所以选择LFR。

2用户对机器学习中采集的原始数据进行分析时，发现原始数据是连续变化的变量，且相邻数值间可无限分割，此份原始数据属于哪种变量类型的数据?

A连续型变量B离散型变量C顺序型变量D类别型变量

答案解析

在统计学中，变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值，符合题干；离散变量指变量值可以按一定顺序一一列举，通常以整数位取值的变量，所以不符合；顺序变量亦称“等级变量”，心理变量的一种，其值仅表明事物属性在数量大小、多少上的次序的变量，可通过顺序量表观测，和题干不符；类别型变量其变量值是定性的，表现为互不相容的类别或属性，也不符合。

2基于目标域标签来对迁移学习算法进行划分，下列选项中，描述正确的是?

A半监督迁移学习B基于标签的迁移学习C基于样本的迁移学习D基于特征的迁移学习

答案解析

基于样本的迁移学习、基于特征的迁移学习、基于模型的迁移学习和基于关系的迁移学习，所以其余三者均是属于按学习方法进行分类的结果，所以并不正确。

2在现有的机器学习中，针对不同的任务需求可以建立不同的模型结构进行解决，以下哪个选项是可以解决数据特征学习的问题？

Ak近邻算法B随机森林C卷积神经网络D决策树

答案解析

神经网络能够将数据转化为更适合解决目标问题的特征形式，从而更加注重数据特征的学习

2数据准备是机器学习中一项非常重要的环节，PCA是一种常见的数据分析方式,在数据处理过程中PCA的主要作用是什么？

A去除数据间存在的噪声数据影响B高维数据的降维，提取数据中主要特征分量C对于缺失数据进行补全D统一数据中各变量的维度

答案解析

PCA是一种常见的数据分析方式，常用于高维数据的降维，可用于提取数据的主要特征分量，故“高维数据的降维，提取数据中主要特征分量”正确；在降维的过程中是降低了变量的维度，并不是去除无关的数据量；对于缺失数据进行补全和统一数据中各变量的维度并不是PCA的作用

2阿里云智能语音合成服务的三个常用产品是短文本语音合成、长文本语音合成、语音合成定制，有关长文本语音合成的相关描述不正确的是哪个?

A不支持异步方式获取合成结果B一次性合成最高10万字，每合成5万字最快仅需10分钟C支持设置语速、语调和音量、男、女声类型D支持应用端缓存，可循环使用

答案解析

阿里云智能语音服务接口是基于websocket长连接实现，基本流程是建立连接、发送请求、发送语音、异步接收结果、关闭连接。

30.迁移学习是一种机器学习方法，该方法的主要思想是什么？

A把其他领域的知识，迁移到源领域和目标领域中，使得源领域能够取得更好的学习效果B把目标领域的知识，迁移到源领域，使得源领域能够取得更好的学习效果C把源领域的知识，迁移到目标领域，使得目标领域能够取得更好的学习效果D把源领域和目标领域的知识结合，使得源领域能够取得更好的学习效果

答案解析

迁移学习主要的思想是把一个领域的知识，迁移到另外一个领域，使得目标领域能够取得更好的学习效果

3调用阿里云智能语音识别服务API时，涉及到采样率和采样位数、语音编码几个参数，下述对这几个参数的说明错误的是哪个?

A音频采样率是指录音设备在一秒钟内对声音信号的采样次数，目前语音识别服务支持16000Hz和8000Hz两种采样率B调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务C采样位数也就是采样值或取样值，目前语音识别中常用的采样位数为16bits小端序D语音编码即语音文件格式，如常见的WAV文件格式

答案解析

语音编码是语音数据存储和传输的方式，语音编码与文件格式是不同的，如常见的wav是文件格式，会在其头部定义语音数据的编码，其中音频数据通常采用PCM或其他编码。在调用语音服务之前应对确认自己语音数据的编码格式是被服务支持的。所以语音编码并不等同于语音文件格式。

3下列关于深度学习的表述描述中，描述正确的是?

A以人工神经网络为架构，通过多层非线性变换对数据、资料进行表征学习的算法。B以人工神经网络为架构，通过单层非线性变换对数据、资料进行表征学习的算法。C以人工神经网络为架构，通过多层线性变换对数据、资料进行表征学习的算法。D以人工神经网络为架构，通过单层线性变换对数据、资料进行表征学习的算法。

答案解析

深度学习是机器学习的分支，是一种以人工神经网络为架构，对数据进行表征学习的算法，深度学习本质上是多层非线性变换的神经网络，具有较强的特征学习能力；在此概念中最关键是多层非线性，因为单层的神经网络能够拟合的数据空间是十分有限的，还有线性神经网络只能够表示线性数据的问题，对于非线性问题是无法表达的，因此以人工神经网络为架构，通过多层非线性变换对数据、资料进行表征学习的算法是正确的。

3阿里云机器学习平台PAI是构建在阿里云哪个计算平台上的?

答案解析

阿里云计算引擎和容器服务层包括MaxCompute、EMR、实时计算等计算引擎及容器服务ACK。

3强化学习任务中有两个非常重要的概念开发和探索，若在ϵ贪心动作选择策略中，存在两个动作以及ϵ为0.4下，会有多少的概率选择贪心动作？

答案解析

两个动作选择，所以0.5的概率选择贪心动作，0.5的概率选择试探，在进行试探时有ϵ=0.4的概率选择贪心动作，所有是0.5+0.5*0.4=0.7

3在模型训练过程中，将数据集分为k份，总共训练k次，每次以k-1份作为训练集，1份作为验证集，得到验证集上的性能，将k次结果平均，作为模型的性能指标，这种验证方法称为什么？

A交叉验证B多次验证C平均验证D准确率均值验证

答案解析

交叉验证是用来观察模型的稳定性的一种方法，将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。

3针对多元线性回归模型，用户可以使用哪个指标或者方法，对回归方程的预测或解释能力作出综合评价

A方差分析B决定系数C值Dt检验

答案解析

决定系数表示一个随机变量与多个随机变量关系的数字特征，用来反映回归模式说明因变量变化可靠程度的一个统计指标，对模型进行线性回归后，评价回归模型系数拟合优度，可以用于多元线性回归的性能评价；方差分析用于两个及两个以上样本均数差别的显著性检验，并不能用于多元线性回归模型的性能评估；P值是用来判定假设检验结果的一个参数，也不能用于多元线性回归；t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著，也不符合，其中P值和t检验都是统计相关的指标，与回归指标并不一致。

R2决定系数

其中，分子部分表示真实值与预测值的平方差之和，类似于均方差MSE；分母部分表示真实值与均值的平方差之和，类似于方差Var。

根据R-Squared的取值，来判断模型的好坏，其取值范围为[0,1]：

如果结果是0，说明模型拟合效果很差；

如果结果是说明模型无错误。

一般来说，R-Squared越大，表示模型拟合效果越好。

3下列关于有监督学习的描述选项中，描述错误的是?

A使用有标签的数据进行模型训练B通过外部、内部校正进行模型校正C根据环境反馈不断调试进行建模D常用算法包括:SVM、KNN

答案解析

有监督学习主要是通过数据以及对应的标签信息进行不断调试建模的，因此“根据环境反馈不断调试进行建模”不正确。

3在利用机器学习方法进行建模的过程中，数据的质量对最终建模的结果有着极其重要的影响，以下选项中哪个问题不是导致数据质量的原因？

A数据不完整B数据存在噪声C数据未归一化D数据不一致

答案解析

影响数据质量的问题有：不完全性：数据缺少特征或者包含缺失值；噪声：数据包含错误的记录或者异常值；不一致性：数据包好冲突的记录或者差异。而数据未归一化并不影响数据的质量，只需要在建模过程中进行数据的归一化处理即可解决，因此选数据未归一化

3下列有关算法优点的描述选项中，哪-项属于CLIQUE算法的优点?

A给定每个属性的划分，单遍数据扫描就可以确定每个对象的网格单元和网格单元的计数BCLIQUE算法非常依赖索度同值的选择C如果存在不同密度的簇和噪声，则也许不可能找到适合于数据空间所有部分的值D对于高堆数据，基于网格的聚美倾向于效果很差

答案解析

像大多数基于密度的聚类算法一样，基于网格的聚类非常依赖于密度阈值的选择。；如果存在不同密度的簇和噪声，则也许不可能找到适合于数据空间所有部分的值。随着维度的增加，网格单元个数迅速增加，即对于高维数据，基于网格的聚类倾向于效果很差。所以仅从优点考虑，只有给定每个属性的划分，单遍数据扫描就可以确定每个对象的网格单元和网格单元的计数符合。

40.像预处理质量的好坏直接影响了后面建模分析，在像预处理过程中，哪一步是为了改正像采集系统的系统误差和仪器位置所导致的随机误差？

A灰度化B几何变换C像增强D像补全

答案解析

灰度化之后矩阵维数下降，运算速度大幅度提高；像几何变换又称为像空间变换，通过平移、转置、镜像、旋转、缩放等几何变换对采集的像进行处理，用于改正像采集系统的系统误差和仪器位置的随机误差；像增强是要改善像的视觉效果，针对给定像的应用场合，有目的地强调像的整体或局部特性，将原来不清晰的像变得清晰或强调某些感兴趣的特征；像补全并不是像预处理的内容。

4在机器学习数据处理过程中，采集的原始数据中只存在变量信息，不存在标签信息，基于此份原始数据，我们可以采用什么类型的算法来进行分析?

A监督学习B聚类分析C分类分析D回归分析

答案解析

由于题干中已经说明在训练的数据中没有标签信息，而监督学习、分类分析和回归分析都需要数据的标签信息作为模型训练过程的指导，因此这三者都不能用于该类数据的算法中；只有聚类方法是无监督学习方法，可以再训练学习的过程中不需要标签数据作为指导，仅利用无标签数据即可完成模型的训练，所以选择聚类分析是正确的。监督学习和无监督学习两者最主要的区别就是在训练数据有无标签信息，而聚类分析方法是无监督学习的典型算法。

4GRU和LSTM都是循环神经网络的一种变体，两种模型中都存在门的相关结构，以下关于两种模型中门的相关内容描述正确的是哪个选项？

AGRU模型存在三个门分别是输入门、输出门和遗忘门BLSTM模型中存在三个门分别是输入门、输出门和遗忘门CGRU模型中存在两个门分别是更新门和遗忘门DLSTM模型中存在两个门分别是更新门和重置门

答案解析

GRU只有两个门分别是更新门和重置门，LSTM有三个门分别是遗忘门、输入门和输出门

4对所建立的模型训练好后，需要利用哪一数据集对模型的性能进行评估？

A训练集B验证集C测试集D所有数据

答案解析

训练集是用于模型训练的数据，验证集是在模型训练过程中对模型性能进行评测的数据，测试集才是对训练好的模型进行评估的数据，不参与到模型的训练过程中，因此选测试集。

4语音合成常见的方法有参数法、拼接法，下述对这两个算法描述错误的是哪项?

A参数法可以在语音库相对较小的情况下，得到较为稳定的合成效果B拼接法需要的音库一般较大，无法保证领域外文本的合成效果C参数法不同语音风格的情况下，必须使用新的音频数据库D拼接合成直接使用真实的语音片段，可以最大限度保留语音音质

答案解析

传统语音合成拼接方法需要使用大型数据库中的语音来拼接生成新的可听语音，但是在需要不同语音风格的情况下，必须使用新的音频数据库，这极大的限制了这种方法的可扩展性。

4在一个数据集合中，某个字段主要用于保存性别信息，这个字段属于哪种变量类型?

A连续型变量B离散型变量C顺序型变量D类别型变量

答案解析

连续型变量是连续变化的变量，相邻数之间可以无限分割，比如温度、速度等；离散型变量数值仅可取整数，自然数或仅可按计量单位计数，如人数、物体个数等；顺序型变量是根据顺序或是等级描述样本的变量，比如高中低、优中差等；类别型变量是指描述不同类别的变量，没有顺序差别，比如性别的男女等；因为该题中的性别特征，没有逻辑顺序，因此是一个类别型变量

4在深度学习方法中，使用大规模数据集预训练模型，然后在自己的目标数据集上进行微调，会获得比较好的模型效果，这主要是利用了什么思想？

A强化学习B迁移学习C元学习D度量学习

答案解析

迁移学习主要的思想是把一个领域的知识，迁移到另外一个领域，使得目标领域能够取得更好的学习效果，题目中利用大规模数据集预训练就是源领域的知识，然后在自己数据集上就是目标领域，因此是迁移学习思想

4以下关于阿里云机器学习平台PAI的PAI-Studio可视化建模的描述哪个是正确的?

A提供了低门槛的偏场景化的机器学习建模服务B为开发者提供了可视化的机器学习实验开发环境，帮助用户实现无代码开发人工智能相关服务C支持交互式的建模方式，用户可以绑定自己的云端存储资源D提供了机器学习模型在线服务功能

答案解析

阿里云机器学习平台PAI的PAI-Studio可视化建模优势是可视化开发体验，即无需开发代码，可以通过拖拉拽的形式快速搭建机器学习实验。

4在进行深度学习的相关模型训练时很容易出现过拟合的问题，以下哪个选项并不能有效的缓解模型的过拟合问题？

A模型中引入BatchNormalizationB增加dropoutC加入l1/l2正则化D减少网络层数

答案解析

在模型中引入BatchNormalization、增加dropout和加入L1/L2正则项都能比较好的缓解模型的过拟合问题；而减少网络层数只会加剧模型的过拟合情况，因此不正确

4智能语音处理对于经典语音处理，最突出的特点是哪项?

A以数字计算为基础B借助微处理器处理C借助人工智能技术D借助通用计算机处理

答案解析

智能语音处理最突出的特点是所利用的技术更加先进，今年来主要是利用人工智能相关的算法解决语音问题，而传统的语音处理主要是利用比较传统的声学模型和语言模型进行语音信号的处理，所以借助人工智能技术是智能语音处理的最突出特点；语音信息的计算都是以数字计算为基础的，微处理器和计算机都是进行语音信息处理的硬件平台，平台的处理并不是智能语音处理的特点，特点还是归咎于技术的进步。

50.支持向量机是一种非常经典的机器学习算法，支持向量机除了解决线性分类问题，还能很好的解决非线性分类问题，之所以能解决非线性分类问题主要是以下哪个选项的引入？

A激活函数B核函数C损失函数D决策函数

答案解析

在支持向量机中引入了核函数能将低纬度空间映射到高纬度空间，从而将低纬度不容易线性可分的数据在高纬空间进行分类，所以是由于核函数的问题；激活函数是在深度学习中所常用的非线性映射函数；损失函数是调节模型权重的函数，决策函数、损失函数和激活函数都不是支持向量机能解决非线性问题的关键。

文章为作者独立观点，不代表股票交易接口观点

通达信量化接口-阿里云ACP考试题库单选题其二

通达信量化接口-接口_又菜又想学java的博客

通达信量化接口-C语言面向对象编程四：面向接口编程

通达信量化接口-接口_又菜又想学java的博客

通达信量化接口-C语言面向对象编程 四 ：面向接口编程

通达信量化接口-C语言面向对象编程四：面向接口编程