《智能科学技术导论》课程总结

本文最后更新于:2 个月前

写在前面

虽然这门神奇且考试有点离谱的课今后不再开了,但是总结的东西似乎大概也许会有一点点用吧。

一、算法、算法构造

算法性质

  • 有序性:算法中步骤有执行顺序
  • 有限性:算法中步骤有限
  • 明确性:算法包含的每一条指令都是明确可以直接执行的步骤
  • 终止性:有限时间结束。对于特殊算法,如操作系统却需要永不终止。

算法构造:从界定算法的性质、描述算法的伪码、算法构造的过程三部分进行分析

(一)界定算法的性质:

  • 算法的定义:算法是一组明确的、可以直接执行之步骤的有限有序集合。
  • 区分算法内涵与算法描述之间的区别。
  • 算法的效率与正确性问题:
    • 效率是指执行一个算法所要花费的时空代价。
    • 算法的正确性,则是要确保算法确实解决了给定的问题。目前,证明算法正确性的方法主要有两种途径:软件测试途径、程序正确性证明。

(二)描述算法的伪码

  • 原语:精确描述算法的形式语言
  • 伪码:重在表达算法思想的非正式符号系统,既具有直观方便性的优点,又忽略了严格语法的规范性。

(三)算法构造的过程

从算法发现的角度看,可以将解决问题的一般原理对应到如下这样四个阶段上:

  • 阶段1:理解问题
  • 阶段2:寻找一个可能解决问题的算法过程
  • 阶段3:阐明算法并且用程序将其表达出来
  • 阶段4:从准确度以及作为解决其他问题的一个工具的潜力这两个方面来评估这个程序

算法结构

  • 选择结构:一般采用条件语句。选择结构本身不会增加计算复杂性。
  • 迭代结构:一组指令以循环方式重复执行。如果表的长度为n的话,那么平均需要计算n/2计算步,因此算法的计算复杂性为O(n)。
  • 递归结构:通过将一组指令当作自身的一个子程序进行调用来进行的。如果表的长度为n的话,那么平均需要计算的递归深度为log2n,因此算法的计算复杂性为O(log2n)

二、自动导航

目前解决机器人自动导航问题的主要环节大致有:

  • 地图构建:明确机器人活动范围的整体路线及其各种坐标参考标志物

  • 定位:通过一定的检测手段来获取机器人在空间中的位置、方向、环境信息,并据此建立动态环境模型

  • 路径规划:寻找最优或极优无障路径

    引导机器人安全移动到达目的地

  • 躲避障碍:给出灵活躲避障碍的策略,特别是非固定障碍的躲避策略。

机器人自动导航目前主要采用的方法包括:

  • 基于预先保存的地图进行导航,主要采用路径跟踪与避障技术来完成导航任务。
  • 通过动态创建的地图进行导航,需要利用各种传感器来获取环境与距离信息,动态建立即时环境的几何模型或拓扑地图,然后引导机器人导航任务的完成。
  • 无地图试探性导航,利用对环境信息的实时检测技术来获取各种对周边环境物体的识别,作为导航依据。

三、机器歌舞

具体地说,为了完成机器歌舞,要实现六个核心模块的构建及其实现工作:

  • 音乐解析模块主要负责对音乐中所包含的节奏、旋律等信息的解析。
  • 音乐情感检测和标注模块是在音乐特征分析的基础上,通过引入情感模型,并采用情感检测算法,实现对音乐情感的检测和情感的自动标注,为音乐与舞蹈动作匹配模块提供有用的信息资源。
  • 舞蹈动作关联分析模块实在拥有大量特征舞蹈单元的原始动作库基础上,依据音乐的情感特征对各特征单元进行动作风格分类,并对属性和关联性做进一步的研究,分析归纳若干舞蹈动作关联约束,并据此将动作中所有动作单元组织成一张有向网,为系统快速有效的进行舞蹈编排做铺垫。
  • 音乐舞蹈匹配模块是以音乐情感特征标注文件以及舞蹈动作序列属性描述文件作为输入,综合考虑音乐的情感特征和舞蹈动作序列的情感属性,利用相应的舞蹈动作选择编排最优算法。最终生成完整的且与音乐内涵最吻合的舞蹈动作序列。
  • 动漫人物展示模块主要负责对音乐的情感内涵、语音以及舞蹈动作进行同步表达,主要以舞蹈的形式并伴有姿态语言和面部表情。
  • 歌舞动作控制模块主要负责智能机器人歌舞动作的实时控制与协调,保证机器人舞蹈动作的连贯性、平衡性和可观赏性。

机器歌舞自主创作的主要问题并不在能否产生规定的动作序列,而在于机器人创作的序列动作前后是否具有动作的连贯性、风格的一致性和表演的艺术性。

写的真好啊!

目前,仿人机器人歌舞存在的主要问题是

  • 没有考虑人类歌舞专业人员学习和创作歌舞的规律
  • 仅仅学习歌舞动作本身,而不是像人类歌舞专业人员一样通过想象来创新歌舞动作
  • 没有考虑歌舞创新和传承之间的平衡问题
  • 缺乏一种通用的仿人机器人歌舞智能学习与创作模型,可以应用于任意仿人机器人硬件平台上完成优美歌舞的学习和创作。

四、脑机接口

脑机接口技术主要包括两种不同类型的研究工作:

  • Type1:实时采集大规模的脑活动信息用以控制人工制作的设备

  • Type2:用人工产生的电信号刺激脑组织,将特定的感知信息直接传给人大脑。

    本章着重介绍第一种类型

可以用于脑机接口的脑电信号主要包括:

  • 脑电节律波(EEG)

  • 诱发电位或事件相关电位(ERP)

  • 神经元电脉冲信号

    前两种通过脑电仪采集,后一种采用内值微电极来获取。

    考虑到内置微电机的损伤性,因此一般都采用脑电仪作为脑机接口的主要工具。

一般脑机接口涉及到五个不同功能模块的实现:

  • 脑电信号的采集:设计脑电仪电极分布模式,使脑电仪最有效的采集所需信号。

  • 脑电信号的预处理:滤波方法,提高信噪比

    通俗点说,去除无关信号,保留强化有效信号

  • 特征提取:根据信号特点,针对具体任务,给出面向任务的特征描述向量,并从信号中提取具体的特征向量值。

  • 模式识别:根据特征向量值,分析,的而出脑电模式类别。

    支持向量机,线性判别分析,人工神经网络,似乎就是一个分类问题

  • 实施控制:根据获得的含义理解(模式识别结果),实时控制机器完成相应功能。

国内外开发的著名脑机接口系统

  • 德国柏林脑机接口系统
  • 美国Wadsworth中心的脑机接口系统
  • 奥地利craz大学的脑机接口系统
  • 思维翻译机
  • 清华大学脑机接口系统
  • 浙江大学猴子意念控制系统

五、知觉组织

整体知觉组织规律:

  • 接近律:视觉更容易根据部分彼此之间的临近或接近关系而组合起来,并得出整体形象。
  • 相似律:具有某种特征(形状、颜色等)相似的项目,不被接近因素掩盖,则倾向于联合在一起。
  • 连续律:如果一套点子中有些点显得连续或者完成一个有规律的系列,或拓展成一条简单的曲线,则这些点更容易组织起来,联合在一起。
  • 封闭律:各种视觉组织律会产生竞争甚至冲突,此时最终知觉的结果形象往往取决于哪种因素更为重要了,其中封闭的图案往往有较大优势。
  • 简单律:在其它因素相同时,人们将把视觉对象看成有组织的简单规则图形。

六、人类运动程序

人类运动程序的产生过程:

  • 根据运动动机愿望、获得的感觉信息以及人体自身状况,大脑联络皮层产生运动动作的粗略规划
  • 大脑皮层对粗略规划进行分析、处理与解释,形成更为详细的运动系列
  • 对运动系列的时空图式进行内部模拟
  • 驱动运动系列的实施。

七、智慧城市

1.定义

​ 智慧城市是指充分借助物联传感网、无线移动网、全球互联网,利用先进的信息技术手段,特别是智能技术,构建城市发展的智慧环境。

智慧城市涉及到智能家居、智能楼宇、路网监控、智能医疗、智能交通、城市管理、城市生态、智能教育与数字生活等诸多领域,其目标就是要形成基于海量信息和智能处理的生活方式、产业发展、社会管理等模式,面向未来构建全新的城市形态。

2.智慧城市的整体框架

在智慧城市的架构中,无线网、互联网、物联网等三网一体

  • 智能家居是智慧城市的单元
  • 智能交通、智能医疗、智能楼宇、智能教育、智能能源、智能环境等是智慧城市的功能实现
  • 智能识别、移动计算、信息融合、云端计算等则是智慧城市的关键技术

3.智慧城市主要特征

从技术层面看,智慧城市的主要特征包括:

  • 由传感器和智能终端构成的物联网覆盖整个城市,可以对城市运行的核心系统进行全方位的感知、监控和分析;

  • 物联网、移动网、互联网三网融合,为城市智能管理提供有效的信息流通平台;

  • 在智能设施的基础上,全面开展智能化政务管理、企业经营、市民生活等创新性开发应用;

  • 城市主要核心系统之间实现高效协同运作,实现城市最佳运行状态。如下图所示。

对于物联感知层,为了实现城市有效的物联感知能力,需要射频识别技术、电子传感技术、智能嵌入技术的支撑。

对于网络通信层,城市网络通信系统应该具备以下主要特性:

  • 三网融合一体
  • 移动通信全覆盖
  • 通信协议全面兼容
  • 宽带光纤网络
  • 泛在的物联网

对于数据服务层,它为各类智慧应用系统提供数据支撑服务。为了有效利用、管理各类数据资源,需要进行数据融合服务融合

然后,在此基础上就可以开发各类智慧城市的应用系统,即智慧应用层。

4.智慧城市应用系统

看看对各个应用的解释吧。考试现场编!冲!

  • 智能公共服务
  • 智能社会管理
  • 智能企业服务
  • 智能安居服务
  • 智能教育服务
  • 智能文化服务
  • 智能商务管理
  • 智能医疗保障
  • 智能交通系统
  • 智能农村服务
  • 智能安防系统
  • 智能政务管理

5.智慧城市建设涉及到的主要核心技术

上述列举的建设项目,都需要智能技术等综合核心技术的支持。

  • 智能感知识别技术
  • 智能移动计算技术
  • 智能信息融合技术

另外,由于数据处理规模庞大、关系复杂,需要建立云计算数据中心,保证诸功能系统的有效运行。

6.对海量数据的挖掘分析,需要考虑三个要点步骤

无论是智慧城市架构,还是涉及到具体智能方法,从核心关键实现技术的角度,大数据及其挖掘分析方法都是其中信息综合处理中的关键

  • 确定数据挖掘的目标,以便采取不同的数据挖掘方法。

  • 构造相应的数据挖掘算法,确定模型和参数

  • 运用构造的算法具体实施数据挖掘任务,提取有效的知识,并用某种方式表达出来。

7.可供选择的数据挖掘目标及其方法大致分为如下几个方面

  • 数据关联分析

  • 自动分类预测

  • 数据聚类分析

  • 离群异常分析

  • 数据演化分析

8.智慧城市的优势、主要作用

  • 能够降低城市运行成本、提高行政效率

  • 能够深化公共服务层次、促进政府职能转变

  • 政府权力运作公开透明、城市管理客观化

  • 各级机构、事业单位高度自治、促进事业发展

  • 保障企业创新活力、促进经济增长

  • 拓宽信息传播渠道、促进就业

  • 引领科技创新、振兴新兴产业

  • 改善民生、提升市民生活质量

八、语音识别

语音识别过程分为三个方面内容:

  • 特征提取
  • 模式匹配
  • 模型训练

针对非特定人的语音识别方法大致包括

  • 隐马尔可夫模型方法,也是语音识别的主流方法
  • 基于知识(利用构词、句法、语义、会话背景等方面的知识)的语音识别方法,并与大规模语料统计模型相结合;
  • 神经网络、遗传算法、免疫算法、蚁群算法等自然计算方法。

根据语音识别目标的不同,语音识别的任务大致分为三类:

  • 孤立词识别(isolatedwordrecognition)
  • 关键词识别(keywordspotting)
  • 连续语音识别。

根据发音对象的不同,还可以分为:

  • 特定人语音识别
  • 非特定人语音识别。

语音识别主要需要解决的五个问题:

  • 话语要素的分割问题:将连续的话语分解为词、音素等基本单位
  • 确定语音模式的区分标准:不同人有不同的语音模式,同一人在不同场合、状态、时期也有不同的语音模式。
  • 模糊性问题:说话含糊不清,语言中同义词现象,使语音识别成为依赖于上下文与会话背景的复杂研究课题。
  • 词语发音的动态性:单个字母或词、字的语音特性会受到上下文影响而变化,包括读音、重音、音调、音量、发音速度等方面的改变。
  • 环境噪音干扰:人类可以在嘈杂环境下排除干扰,但是机器没有有效解决方法。

九、大脑皮层运动

课本p85,5.1.2,说的挺好的,感觉就是它没错了!

人脑机制——从人脑结构功能定位、神经连接网络、心脑行为自主对人脑机制进行分析:

  • 人脑结构功能定位:任何叶区的功能划分都不会是绝对明确的,确切的功能性叶区边界也是不存在的;并因人而异的。脑功能是分布搭配式的,因此某个功能消失并不一定引起所有功能的丧失。
  • 神经连接网络:人脑中的神经系统看作是由神经细胞及其突触联系所构成的一张巨大无比的神经网络。
  • 心脑行为自主:心脑行为从根本上讲是神经系统自组织活动本身的外效表现。

运动神经系统由三个水平的神经结构分级构成,从低到高分别是:

  • 脊髓:最低水平的运动控制结构

  • 脑干的下行系统:包括内测和外侧两个部分。

  • 大脑皮层的运动区:详细说明见下一点

    在整个运动神经系统中,大脑皮层可以通过脑干下行系统来对脊髓进行间接控制。

大脑皮层运动区的详细说明

大脑运动皮层为运动制定正确策略。通过各种感觉传入,来获得外界物体在空间中相互关系的信息。

大脑皮层运动区是运动控制的最高水平中枢,大致构成包括有:

  • 初级运动皮层

  • 外侧前运动皮层或前运动区

  • 辅助运动区

    后两个部分均有神经纤维投射到初级运动皮层。而三个部分则均直接投射至脊髓或经脑干下行系统影响脊髓。

十、知觉/视觉感知

从视觉神经通路、知觉组织规律、视觉感知经验三方面阐述:

  • 视觉神经通路:在视觉通路中,各层次神经细胞普遍是以相互作用的方式进行通信的。整个视觉通路中的神经联接和排列方式,决定了具有引起神经细胞活动方式的视觉刺激或辩认。

  • 知觉组织规律:格式塔心理学派将反映这种整体知觉的规律归纳为一些普遍性规则,称为知觉组织律。整体知觉的组织规律还其他一些规律,分别是:接近律、相似律、连续律、封闭律、简单律。

  • 视觉感知经验:人类所具备的视觉恒常性和容错性,难以为机械精确、永远无错的算法方式所描述。

视觉感知经验

  • 恒常性:主要来自于经验和比较
  • 容错性:有时我们的视觉会得出错误的结论,产生幻觉或错觉。因为经验导致的错觉,人类的视觉不会因为错觉而否认经验,因为经验是人类赖以生存的基础。

十一、机器人社会行为

下面列举了一些机器人应该学会的最基本社会行为,这样可以增加机器人的社交能力。

  • 身份认知:机器人从中学会在当事与非当事人的身份转换。
  • 讨回物品:当A把物体扔给B时,机器人会走向B并将物体要回。
  • 冻结身份:在身份转换时,机器人必须静止不动(“冻结”)直到身份确定。
  • 引导他人:机器人引导他人开展活动。
  • 寻找物品:寻找被他人占有的物品,尝试去向他们索要该物品。

十二、视觉计算理论

视觉计算的过程

  • 图像获取:通过某种视觉图像采集设备,比如相机、遥感仪、雷达等,获取二维、三维或者图像序列
  • 预处理:对于获取的图像,进行各种滤波、矫正处理,使质量更好,效果更佳
  • 特征提取:根据研究目标不同,获取描述图像的各种基本要素,比如边缘与线条、区域与纹理、深度与运动信息等,属于低层信息处理阶段。
  • 区域分割:对获取的特征集合初步整合,将图像分割成各个有机组成部分,属于中层信息处理阶段。
  • 高级处理:或对图像分类、或理解图像含义、或进行景物分析或识别视觉目标、或跟踪视觉目标,都需要不同的高级计算处理,属于高层信息处理阶段

如果不考虑视觉图像的获取与预处理,那么上述的后三个步骤构成了视觉计算的主要三个环节:

  • 差异性信息检测:确定局部性质,灰度、梯度、速度等
  • 相似性参数分析:确定几何属性,边界、区域、纹理等
  • 综合性含义理解:确定语义关系,描述、匹配、推理等

马尔视觉计算理论

9-景物理解-2-马尔视觉计算理论

机器要实现三维景物的理解计算,首先必须要给出可以进行形式化表征的计算策略和方法。

马尔认为,视觉感知首先是一个信息处理过程,是要从图像中发现外部世界中有什么以及处在什么位置。

因此,视觉对象的内部表征就成为视觉计算的主要载体。

于是视觉计算任务就成为如何根据给定的图像,来获取个层次的内部表征,直至恢复图像的三维景物。

马尔从三个层次建立视觉计算理论:

  • 计算理论:确定视觉计算的目的
  • 表征与算法:如何实现视觉计算任务,确定输入输出的表征,给出不同表征之间转换的算法。t
  • 硬件实现:在物理上如何实现视觉表征及其转换算法。

第二个层次是视觉计算理论的核心内容,为此,马尔提出了具体的四级表征

  • 图像:表达光强,用像素表征
  • 要素图:表达二维图像中的重要变化信息及其分布。比如边界、不连续点、斑点、有效线段、边缘片段等。
  • 2.5维图:在以观察者为中心的坐标系中,将可见朝向、大致深度及其不连续轮廓表达清楚。比如表面要素的朝向、距离观察者的深度、深度上不连续点、表面朝向不连续点等。
  • 3维模型:在以物体为中心的坐标系中,景物用体积基元和面积基元给出的层次模块化表征。

对上述各个层次表征的获取,正好对应视觉计算不同步骤的计算分析处理阶段,涉及到:

  • 图形检测、运动检测、空间检测、分形检测等差异性低层处理技术
  • 边线合成、区域生成、纹理识别、表面恢复等相似性中层处理技术
  • 景物匹配、含义推断、知识习得、目标规划等理解性高层处理技术。

十三、视觉选择性注意机制

人类视觉活动复杂,特别是主观经验也会决定人类视觉结果

​ 相对于机器而言,人类有着复杂的视觉活动能力。

​ 人类在眼睛收受信息时,并非对环境中所接触到的一切刺激特征全盘接收的。根本原因就是人类所获取的视觉信息、所获得的视觉经验,都是主动选择性的。

写的真好!

由此得出结论——人类对物体的知觉,不能仅仅通过对物体各组成要素的感知把握,还需要一个整体概念做指导。

​ 很明显,对于一个物体的知觉,必须通过对这一物体的各组成要素进行感知把握之后才能完成;然而如果在感知把握时,没有一个整体的概念作指导,那么对这个物体的知觉就连一步也不能深入下去。

​ 观察者能看见什么,不仅取决于外界呈现的视觉刺激,还取决于他主观的注意。外界刺激只有在主观意识活动的参与下,才能形成视觉形象的显现。

人类视觉的主动性有两个作用,除了上述描述的“主动选择发现线索”外,还有一个重要特点是主观意念并非总是唯一。

​ 当然,在这种主观意念起作用的情况中,除了视觉会主动有选择地去“发现”线索以构成有意义的整体感知外,还有一个重要的特点就是主观意念往往并非总是唯一的,

机器视觉的不足

​ 遗感的是,通过运动序列图像的分析和跟踪,机器确实可以去选择有效的线索,但由于机器缺乏主观意向性,因此主观意念就将成为机器视觉的真正困境。

作者试探性的给出了一种动态场景主动理解的视觉计算模型

​ 目前机器视觉系统的构建,主要都是建立在视觉信息处理的bottom-up策略之上的,如马尔的计算理论那样,很少运用人类视觉经验的top-down策略。

​ 为了弥补这样的不足,构建未来的机器视觉系统,我们可以依赖人类视觉认知机制的研究成果,引入联想觉知机制,形成一种具有觉知能力的视觉感知动态计算模型

以下是按照如上构想提出的视觉动态觉知的计算模型

​ 在该模型中,除了必须的Bottom-Up视觉加工处理外,主要加入了体现top-down计算策略的“联想记忆”和“整体觉知”模块。然后将Bottom-Up和top-down两者加工策略相汇合,整合形成实时动态场景中关注对象觉知,从而解决动态场景的视觉计算问题。

作者总结

​ 景物理解的主动视觉,特别是主观意念参与的知觉过程是与人类整个心智能力,包括意识、情感、经验等等在内的机能密不可分,而其中的视觉选择性注意是人类视觉系统能够开展主动感知活动的基础。因此,希望机器视觉也能够部分地模仿人类景物理解能力,首先必须解决主动视觉机制的计算实现问题。我们期待有朝一日,在机器主动视觉的计算模型及其系统应用方面,有长足的进步。


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!