Seminar课程

多媒体理论与技术 / 计算机与软件学院 / 朱映映

       近年来,那些伸手可及的多媒体信息呈现出爆炸式增长,而且这种增长越来越迅速,互联网已成为一个浩瀚的海量多媒体信息源,与此同时,数字照相机、数字摄像机日渐普及,多媒体内容以指数级的速度飞速膨胀。几乎所有的个人计算机以及数字终端中都存放着数字化的图像和视频内容,并且每时每刻都有大量的新内容创造出来。人们对视频和图像等视觉媒体内容的需求也越来越多,越来越广泛。各种各样的数字化设备包括个人计算机、数字电视、手机将能以不同的网络传输方式获取不同形式的图像、视频等信息。 这些数字化视觉听觉等信息在丰富人们的生活、工作、教育、娱乐等方面起到越来越突出的作用,用户对多媒体内容的需求也越来越广泛,越来越迫切。多媒体是互联网大数据的主要载体和重要应用对象。多媒体表现出大数据的典型特征,如增长迅速、体量大,来源丰富、类型多样,价值密度低等。这些大数据特征为多媒体研究带来了挑战,同时为下一代多媒体搜索等应用带来了机遇。这样的趋势迫使我们研究与开发图像与视频等多媒体内容的分析、理解、过滤与监控技术。

            

   

     多媒体技术(Multimedia Technology)是利用计算机对文本、图形、图像、声音、动画、视频等多种信息综合处理、建立逻辑关系和人机交互作用的技术。真正的多媒体技术所涉及的对象是计算机技术的产物,而其他的单纯事物,如电影、电视、音响等,均不属于多媒体技术的范畴。

    媒体(medium)在计算机行业里,媒体有两种含义:其一是指传播信息的载体,如语言、文字、图像、视频、音频等等;其二是指存贮信息的载体,如ROMRAM磁带、磁盘、光盘等,主要的载体有CD-ROM、VCD、网页等。多媒体是近几年者出现的新生事物,正在飞速发展和完善之中。

   多媒体理论与技术主要讲述了多媒体的概念,原理及其关键技术、视频音频图形图像信息的获取与处理、多媒体数据压缩编码技术、多媒体计算机硬件及软件系统结构、多媒体开源视觉库,多媒体内容检索技术等。通过学习这些内容, 重点培养学生对多媒体原理及关键技术,多媒体数据压缩编码技术,多媒体应用系统的设计与开发的研究开发能力,为今后开展多媒体领域的研究和开发工作打下良好的基础。

本课程要求学生掌握多媒体基本原理以及基本概念,图形,图像,视频、音频等媒体的关键技术,多媒体数据压缩编码技术及多媒体计算机硬件和软件系统结构,经过理论学习和实验提高对多媒体数据压缩编码算法,多媒体检索,多媒体开源数据库等的研究开发能力。

参考:

1. Fundamentals of Multimedia.Zenian Li.Springer.2011

2. 多媒体技术教程.史元春.机械工业出版社.2013

3. 多媒体技术基础.林副宗.清华大学出版社.2010.


在当前大数据以及深度学习蓬勃发展的背景下,多媒体的理论以及技术主要存在以下五个问题:

1)多媒体数据的组成:从像素开始

了解多媒体,必须从了解多媒体数据开始。本案例将以数据的采样、压缩、量化的具体过程为例,展示数字图像中像素、视频中帧的诞生过程,引起学生对多媒体数据的兴趣。

2)维数灾难:多媒体数据的瓶颈与机遇

  维数灾难通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。多媒体数据天然具有极高的维数,并且数据量极大,如何完成多媒体数据的内容分析,必定要解决维数灾难问题。本案例以维数灾难为例,引出多媒体数据的本质问题,引发学生的思考,并且向学生展示主成分分析、流形学习等方法在多媒体内容分析数据上的应用。

3)多媒体数据的表征:全局描述子与局部描述子

边缘提取、颜色直方图、模版匹配等图像处理手段是多媒体内容分析的早期手段,从数据的表征来说,这些方法可以认为是全局表征子,本案例将从这些全局表征子出发,研究图像处理在多媒体数据上的经典应用,以及最新的以GIST为代表的全局表征子的研究成果。 2006年,以尺度不变特征(SIFT)为代表的局部表征子,成为多媒体数据表征的主流方式,将以SIFT的计算为切入点,引发学生对局部表征子的兴趣,研究多媒体数据的局部表征子的优势与其成功应用。

4)基于内容的图像与视频检索:多媒体数据的经典应用

 基于内容检索(Content-based Retrieval,简称CBR)是对媒体对象的内容及上下文语义环境所进行的检索。通俗的说,就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。这类检索根据用户的要求,对文本、声音、图形、图像、动画等多媒体信息进行检索。基于内容的图像检索当前已经应用到谷歌,百度,阿里巴巴的实际项目中,本案例将从上述公司的典型应用出发,引出多媒体数据检索的原理,启发学生思考,让学生通过分组合作,研讨,编程开发,完成一个小型的基于内容的图像检索系统。

5)多媒体数据上进行深度学习

近年来,基于深度学习的研究成为国内外学者关注的热点,根据国际权威搜索WEB OF SCIENCE 提供的统计数据,与深度学习相关的主题论文数总共有1149 篇,而2015年发表的论文就达到了689篇。在学术界,国内外众多高校和研究院展开了大量的基于深度学习的理论和应用研究;工业界的巨头也争相成立了深度学习相关的研究中心。深度学习以其强大的学习能力广泛应用于语音识别、图像分类、物体识别、机器翻译等领域,并在众多领域都取得了目前最好的成绩。本案例将从图像分类、物体识别等多媒体内容分析的经典应用案例出发,深度剖析深度学习的原理、机制、手段,启发学生对科学研究前沿问题的思索。


多媒体技术新思路:

   深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域有着巨大的应用前景。

   深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。 

   深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。

   深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。


C:\Users\Time\Pictures\CNN.PNG

                                     深度学习框架示意图

参考文献

[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 323(99):533– 536, 1986.
[2] J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei‐Fei. Imagenet: A large‐scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2009.
[3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proc. Neural Information Processing Systems, 2012

深度学习和其它机器学习方法相比关键的不同点,为多媒体技术中遇到的问题提供了新思路。

(1)特征学习
深度学习与传统模式识别方法的最大不同在于它是从大数据中自动学习特征,而非采用手工设计的特征。好的特征可以极大提高模式识别系统的性能。在过去几十年模式识别的各种应用中,手工设计的特征处于同统治地位。它主要依靠设计者的先验知识,很难利用大数据的优势。由于依赖手工调参数,
特征的设计中只允许出现少量的参数。深度学习可以从大数据中自动学习特征的表示,其中可以包含成千上万的参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史,往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。
一个模式识别系统包括特征和分类器两个主要的组成部分,二者关系密切,而在传统的方法中它们的优化是分开的。在神经网络的框架下,特征表示和分类器是联合优化的,可以最大程度发挥二者联合协作的性能。


fetures.PNG

 

(2)深层结构的优势
深度学习模型意味着神经网络的结构深,由很多层组成。而支持向量机和
Boosting 等其它常用的机器学习模型都是浅层结构。有理论证明,三层神经网络模型(包括输入层、输出层和一个隐含层)可以近似任何分类函数。既然如此,为什么需要深层模型呢?理论研究表明,针对特定的任务,如果模型的深度不够,其所需要的计算单元会呈指数增加。这意味着虽然浅层模型可以表达相同的分类函数,其需要的参数和训练样本要多得多。浅层模型提供的是局部表达。它将高维图像空间分成若干局部区域,每个局部区域存储至少一个从训练数据中获得的模板。浅层模型将一个测试样本和这些模板逐一匹配,根据匹配的结果预测其类别。例如在支持向量机模型中,这些模板就是支持向量;在最近邻分类器中,这些模板是所有的训练样本。随着分类问题复杂度的增加,图像空间需要被划分成越来越多的局部区域,因而需要越来越多的参数和训练样本。
深度模型能够减少参数的关键在于重复利用中间层的计算单元。例如,它可以学习针对人脸图像的分层特征表达。最底层可以从原始像素学习滤波器,刻画局部的边缘和纹理特征;通过对各种边缘滤波器进行组合,中层滤波器可以描述不同类型的人脸器官;最高层描述的是整个人脸的全局特征。深度学习提供的是分布式的特征表示。在最高的隐含层,每个神经元代表了一个属性分类器,例如男女、人种和头发颜色等等。每个神经元将图像空间一分为二,
N 个神经元的组合就可以表达 2N 个局部区域,而用浅层模型表达这些区域的划分至少需要个 2N 模板。由此我们可以看到深度模型的表达能力更强,更有效率。

(3)提取全局特征和上下文信息的能力
深度模型具有强大的学习能力,高效的特征表达能力,从像素级原始数据到抽象的语义概念逐层提取信息。这使得它在提取图像的全局特征和上下文信息方面具有突出的优势。这为解决一些传统的计算机视觉问题,如图像分割和关键点检测,带来了新的思路。
以人脸的图像分割为例。为了预测每个像素属于哪个脸部器官(眼睛、鼻子、嘴、头发),通常的作法是在该像素周围取一个小的区域,提取纹理特征(例如局部二值模式),再基于该特征利用支持向量机等浅层模型分类。因为局部区域包含信息量有限,往往产生分类错误,因此要对分割后的图像加入平滑和形状先验等约束。事实上即使存在局部遮挡的情况下,人眼也可以根据脸部其它区域的信息估计被遮挡处的标注。这意味着全局和上下文的信息对于局部的判断是非常重要的,而这些信息在基于局部特征的方法中从最开始阶段就丢失了。
理想的情况下,模型应该将整幅图像作为输入,直接预测整幅分割图。图像分割可以被当作一个高维数据转换的问题来解决。这样不但利用到了上下文信息,模型在高维数据转换过程中也隐式地加入了形状先验。但是由于整幅图像内容过于复杂,浅层模型很难有效地捕捉全局特征。深度学习的出现使这一思路成为可能,在人脸分割
、人体分割、人脸图像配准和人体姿态估计等各个方面都取得了成功

(4)联合深度学习
一些计算机视觉学者将深度学习模型视为黑盒子,这种看法是不全面的。事实上我们可以发现传统计算机视觉系统和深度学习模型存在着密切的联系,而且可以利用这种联系提出新的深度模型和新的训练方法。这方面一个成功的例子是用于行人检测的联合深度学习。一个计算机视觉系统包含了若干关键的组成模块。例如一个行人检测器就包括了特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等等。在联合深度学习中
,深度模型的各个层和视觉系统的各个模块可以建立起对应关系。如果视觉系统中一些有效的关键模块在现有深度学习的模型中没有与之对应的层,它们可以启发我们提出新的深度模型。例如大量物体检测的研究工作证明对物体部件的几何形变建模可以有效地提高检测率,但是在常用的深度模型中没有与之相对应的层。于是联合深度学习及其后续的工作都提出了新的形变层和形变池化层实现这一功能。
从训练方式上看,计算机视觉系统的各个模块是逐一训练或手工设计的;在深度模型的预训练阶段,各个层也是逐一训练的。如果我们能够建立起计算机视觉系统和深度模型之间的对应关系,在视觉研究中积累的经验可以对深度模型的预训练提供指导。这样预训练后得到的模型至少可以达到与传统计算机视觉系统可比的结果。在此基础上,深度学习还会利用反向传播对所有的层进行联合优化,使它们之间的相互协作达到最优,从而使整个网络的性能得到重大提升。

参考文献

[1] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.
[2] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[3] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2013.
[4] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[5] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[6] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi‐stage and deformable deep
convolutional neural networks for object detection. arXiv:1409.3505, 2016.

[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.


 

《多媒体理论与技术》Seminar课程总结

    《多媒体理论与技术》的教学过程中我们采取了多种教学模式相结合的方式,主要包括五个案例式教学,每个案例持续3-4周,涉及到多媒体内容分析中的维数约减、特征表示、模式识别等主要理论,深度学习等最新研究成果,强调多媒体内容分析在计算机学科中的应用,并使得每个案例具有一定趣味性和深入性,综合学生讲授模式、全员讨论模式、教师点评模式。

     通过五个案例式教学,每个案例持续3-4周,涉及到多媒体内容分析中的维数约减、特征表示、模式识别等主要理论,深度学习等最新研究成果,强调多媒体内容分析在计算机学科中的应用,并使得每个案例具有一定趣味性和深入性。在教学过程中我们采取了精讲、案例、专题相结合的方式:1)对于重点要求掌握的算法理论和知识内容,我们在课堂上采取精讲的方式,充分利用多媒体教学手段串联问题和知识点,引入了案例、身临性视频等教学手段,结合全员讨论,力争使授课效果最大化;2)对于辅助性的课程内容,我们采取概述方式简要介绍基础知识,然后引导学生开展自学,提高学生的自我学习能力;3)对于多媒体领域的前沿技术,我们采取专题方式展开介绍,使学生能够了解到最新的技术动态,激发他们的学习兴趣。

   教学方式采用以研究性教学为基础的,小范围、近距离的教育模式,以案例式教学为主,同时综合互动式、研讨式和辩论式等多样的教学方式,旨在激发学生的研究兴趣和自主创新能力,培养学生的动手实践能力。

  从整个授课过程来看,学生对该门课程学习的积极性都较高。这样的教学模式,不仅激发了学生的研究兴趣和自主创新能力,培养了学生的动手实践能力,整个上课的氛围都比较活跃,师生可以随时互动;同时,学生学习到了理论知识,也培养了学生查阅与课程内容相关的文献,解决问题的能力。另外,以小组的形式进行分组讨论,一方面促进了学生之间的交流,另一方面也培养了他们的团队精神。

   通过Seminar 学习,大部分学生得到了较为全面的锻炼、树立了自信心,学生们对该课程产生了兴趣,以此为技术,继续从事自己的科学研究,取得了预期的效果。但还有个别同学缺乏创新性,只是在做常规方法的简单重复,这是今后课程中需要提醒和帮助学生的地方,有待改进


 

 

 


 

hello world

本课程分为三个学习阶段:

1 掌握基础知识

   掌握讲述了多媒体的概念,原理及其关键技术、视频音频图形图像信息的获取与处理、多媒体数据压缩编码技术、多媒体计算机硬件及软件系统结构、多媒体开源视觉库,多媒体内容检索技术等。

(2)研究课题选择和可行性论证

   老师介绍多媒体理论主要研究方向和可能的研究问题,指导学生进行研究选择。学生围绕研究意义和现状、主要研究内容、技术路线和难点、可行性分析等方面进行可行性论证。

(3)研究课题实施和呈现

   学生以小组形式完成研究课题,研究方案设计、报告推演。撰写学术论文并进行系统演示和答辩。在培养实践能力的同时培养学生的论文撰写和成果呈现能力。

     

教学研究内容

1.多媒体理论概述

⑴掌握多媒体,多媒体计算机的定义、分类及其关键技术

⑵了解多媒体技术发展史及当前的研究方向

 2.音频关键技术

⑴掌握数字音频信息的获取与处理的过程、音频卡的工作原理

⑵理解数字音频采样量化的过程、音乐合成的原理

⑶理解数字音频编码的标准

 3.图形图像关键技术

(1)掌握图形,图像的基本概念,数字图像信息的获取与处理过程

(2)理解显卡,显示器等显示设备的工作原理

(3)掌握图像文件格式及转换

 4.视频关键技术

⑴掌握视频信息的获取与处理的基本原理、视频卡的工作原理

⑵理解彩色空间的表示及转换

 5.多媒体数据压缩编码技术

⑴掌握数据压缩编码的方法、常用的压缩编码和算法、JPEG的原理和实现技术

⑵理解量化的原理和量化器的设计、MPEG-1的原理和实现技术

⑶了解其他的国际标准等

 6.多媒体信息内容检索

⑴了解基于内容的多媒体检索技术研究现状

(2)理解多媒体内容检索的基本原理以及关键技术

(3)理解多媒体开源视觉库的基本流程,使用方法及基本函数

(4)深度学习基本原理

 

学生基础要求

(1)具有较强的编程能力,语言不限。

(2)熟悉算法设计、数据结构。


研讨主题:

1. 语音编码

1)理解脉冲编码调制(Pulse Code Modulation, PCM)原理;

2)理解自适应脉冲编码调制(Adaptive Pulse Code ModulationAPCM)原理;

3)理解差分脉冲编码调制(Differential Pulse code modulationDPCM)原理;

4 理解自适应差分脉冲编码调制(Adaptive Differential Pulse Code ModulationADPCM)原理。

脉冲编码调制(PCM

概念上最简单,理论上最完善的编码系统,是最早研制成功,使用最为广泛的编码系统,也是数据量最大的编码系统。

  自适应脉冲编码调制(APCM

是一种根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以使音节自适应,即量化阶的大小在较长时间周期里发生变化。

  差分脉冲编码调制(DPCM

是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而减少了表示每个样本信号的位数。

  自适应差分脉冲编码调制(ADPCM

ADPCM综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码;基本思想:①利用自适应改变量化阶的大小,即使用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值。②使用过去的样本值估算下一个输入样本的预测值,使实际样本和预测值之间的差值总是最小。

2. 图像文件格式

1 理解bmp图像文件格式,使用CC++Java语言中的一种实现bmp图像(512*512分辨率以上)从上到下逐行显示。(注:此项目中从上到下,每8*512像素点为一行)

2 使用CC++Java语言中的一种实现bmp彩色图像(512*512分辨率以上)的灰度化。

blob.png

BMP图像文件格式

BMP(Bitmap-File)图像文件是Windows采用的图像文件格式,在Windows环境下运行的所有图象处理软件都支持BMP图象文件格式。

Windows系统内部各图像绘制操作都是以BMP为基础的。Windows 3.0以前的BMP图文件格式与显示设备有关,因此把这种BMP图象文件格式称为设备相关位图DDB(device-dependent bitmap)文件格式。

Windows 3.0以后的BMP图象文件与显示设备无关,因此把这种BMP图象文件格式称为设备无关位图DIB(device-independent bitmap)格式。

BMP位图文件默认的文件扩展名是BMP或者bmp(有时它也会以.DIB.RLE作扩展名)。BMP图像以图像的左下角为起点存储图像。

位图文件可看成由4个部分组成:

位图文件头(bitmap-file header);位图信息头(bitmap-information header);彩色表(color table)

定义位图的字节阵列。

图像灰度化

图像灰度化即使彩色图像的三种颜色分量RGB的分量相等。由于RGB的取值范围是【0255】,所以,灰度的级别只有256级,即灰度图像仅能表现256种灰度颜色。常见的图像灰度化处理方法主要有以下三种:

最大值法:这种方法原理是使RGB的值等于三个色彩分量中最大的一个分量,即:R=G=B=maxRGB)。使用最大值法处理后的灰度图像亮度会偏高。

平均值法:这种方法的原理是使RGB的值等于三个色彩分量的平均值,即:R=G=BR+G+B/3。使用平均值法处理后的灰度图像亮度较为柔和。

加权平均值法:这种方法是根据重要性或其他指标给RGB赋予不同的权值,并使RGB等于它们的加权值,即R=G=B=aR+bG+cB,其中,abc分别是RGB的权值。当其权值abc取不同的值时,加权法能够形成不同灰度的灰度图像。由于人眼对绿色的敏感度最高,红色次之,对蓝色的敏感度最低,因此,当权值b>a>c时,所生成的灰度图像更符合人眼的视觉感受。通常,当a=30%,b=59%,c=11%时,这种图像的灰度最为合理。

上述三种方法形成的灰度图像各不相同,通常,使用加权平均法进行灰度处理后的灰度图像最为符合视觉享受。

3. OpenCV

1)了解OpenCV以及安装;

2)对以下的OpenCV示例,理解代码,运行完成代码。

blob.png


OpenCV的全称是:Open Source Computer Vision LibraryOpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在LinuxWindowsAndroidMac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了PythonRubyMATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。

OpenCVC++语言编写,它的主要接口也是C++语言,但是依然保留了大量的C语言接口。该库也有大量的Python, Java and MATLAB/OCTAVE (版本2.5)的接口。这些语言的API接口函数可以通过在线文档获得。如今也提供对于C#, Ruby的支持。

实现了图像处理和计算机视觉方面的很多通用算法。目前最新版本是3.1 2016129日发布。所有新的开发和算法都是用C++接口。一个使用CUDAGPU接口也于20109月开始实现。


研讨流程:

基于多媒体理论当前研究领域中存在的主要问题,采用五个多媒体内容分析领域的专题进行案例教学。研讨过程分为以下五个环节。

环节一:案例分析。先由导师提出案例,引导学生用所学的多媒体内容分析知识,结合机器学习、模式识别、人工智能的方法解决案例中涉及的问题。

环节二:学生分组讨论。教师将学生分成若干小组,每组2~4人为宜。各小组设立1名负责人,由小组负责人组织成员围绕该案例的基本原理,当前的研究现状、需要解决的问题等方面分析开展案例研讨。讨论时,先由每个成员就案例的采用的研究技术、存在的问题等进行介绍,提出自己的见解,然后小组成员间进行讨论与交流。对于争议较大、掌握不准的问题,任课教师进行讲解或指点。

环节三:研究方案设计、报告推演。学生分组讨论结束后,各组学生分工合作,设计初级研究方案,推演实践方案的可行性。任课教师根据各小组工作及研讨情况进行点评与指引。通过教师引导,学生研讨推演实践案例,学习掌握课程内容,激发学生的研究兴趣。必要时,可以请高年级的研究生进行辅助指导。

环节四:案例实践,撰写论文报告、分组演示。学生根据最后制定的研究方案与技术路线,实践案例,根据要求撰写论文或者报告,最后分组演示,探讨所存在的问题以及后续工作等。

该教学方案采用以研究性教学为基础的,小范围、近距离的教育模式,以案例式教学为主,同时综合互动式、研讨式和辩论式等多样的教学方式,旨在激发学生的研究兴趣和自主创新能力,培养学生的动手实践能力。

研讨示例:

(1)时间:2016年10月20日,5-6节课

  地点:计算机与软件学院大楼407教室

  内容:语音编码

C:\Users\Time\Documents\Tencent Files\34856545\FileRecv\MobileFile\IMG_0431.JPG

   

(2)时间:2016年11月17日,5-6节课

  地点:计算机与软件学院大楼407教室

  内容:图像存储

C:\Users\Time\Documents\Tencent Files\34856545\FileRecv\MobileFile\IMG_0455.JPG


(3)时间:2016年11月17日,5-6节课

  地点:计算机与软件学院大楼407教室

  内容:OpenCV

C:\Users\Time\Documents\Tencent Files\34856545\FileRecv\MobileFile\IMG_0487.JPG




这学期很开心能够和朱老师一起学习多媒体基础的相关知识,朱老师的备课充分,教学认真负责,在课堂上深入浅出的为我们介绍了图形图像、视频等多媒体的相关知识。对于平时的小作业,不仅锻炼了我们在科研初期需要具备的相关能力,在我们做汇报的时候老师也很耐心的听取并给予每位同学中肯的意见与建议。多媒体课程的课堂轻松而且或活跃,一学期结束没有同学会无故不到课,这和老师的讲课水平有很大的关系,非常吸引学生。另外,朱老师还邀请做VR项目的师兄来课堂为我们分享,让大家有机会了解这些前沿的技术。朱老师平易近人的性格以及丰富的科研经验赢得了很多同学的敬佩与喜爱,如今,我们已经成了很好的朋友。我相信,所有这些都会给我们今后的科研生活产生积极的影响,也很感谢朱老师这一个学期为大家的付出!
——任柯榕(2160230503)


作为计算机专业学生,了解多媒体知识,是继续学习和科研工作的基础。在《多媒体理论与技术》这门课中,我的理论知识和实践能力都得到了很大的提高。课堂上,老师详细,耐心的讲解,让我能够对多媒体领域的知识有初步的了解和认识。在本门课中,老师由浅入深的教学方式,比如从基础的图像等多媒体格式和各种多媒体设备的介绍,到具体的图形图像处理算法等知识实现方法,让我逐步进入最佳的学习状态。同时,老师还会鼓励同学们多进行探究,提高自主学习能力。每位同学都有机会将自己学习到的相关领域知识以课堂汇报的形式分享给大家,这种丰富的教学方式,既让大家学到了知识,又促进了促进师生和同学间的交流。课堂下,通过完成老师交给的实验题目,让我能将学习到的理论知识活学活用,既夯实了概念理论知识,又提高的动手实践能力。通过一个学期的课程,自己的知识和能力真正得到了提升,要感谢老师的辛勤付出,也希望在接下来的学习科研中,能学有所用,继续进步。
——王芳(2160230414)


《多媒体理论与技术》这门课程十分有用,对于没有多媒体相关知识储备的同学来说是一个非常好的基础介绍课程。通过学习这门课程,我们能够对多媒体构建起基本的知识框架,对于以后深入研究具体分支的问题奠定了夯实的基础。在教授的过程中,朱老师采用了不同的教学方法,不仅仅局限在ppt的内容中,还给我们用视频例子,软件示范,研究相关知识的师兄讲解等多种方法来帮助我们去理解知识点。将本来枯燥的理论知识讲的非常生动而易于理解记忆。同时朱老师根据课程知识结构的特点,将理论与实际相结合,会适当地布置一些小作业和给我们每个人分派专题进行研究,以此来锻炼我们实际运用理论的能力。每个人都有机会参与到课堂的讨论中,将自己实践的经验分享给同学们,朱老师也会针对其中出现的问题进行详尽的评价,由此我们能够深刻了解到自己的不足之处,提高自己的能力。
——童敏(2160230510)


《多媒体理论与技术》作为一门非学位课程,但广泛讲述了关于文本、图形、图像、视频等基本知识。朱映映老师细致且通俗易懂的讲解,让我初步了解到多媒体领域,为我的研究方向指明了前进的方向。朱老师在课上结合前沿技术剖析知识,引发我们的好奇心,引导我们对多媒体领域的兴趣,不仅对研究多媒体领域的同学受益匪浅,也让研究其他领域的同学了解学习到了更多前沿知识。课堂上还采用学生报告的方式,让每一位上课的同学都有机会详细讲解自己对问题的见解和认识,对于出现的问题可以与老师、同学充分讨论,同学准备充分,老师点评讲解到位,课堂氛围极好。最后,感谢朱老师带给我们一学期的精彩课程,感谢朱老师对我们的辛苦付出和悉心指导!
——吕晓萌(2160230504)


首先感谢朱映映老师整个学期的认真教学,受益良多。这门多媒体课程内容很丰富,老师由浅到深认真的为我们讲解了多媒体这个笼统的概念以及涉及到的一些细节,从文本、声音、图像、图形到动画方面进行细致的讲解,并分组利用实践操作让我们深刻理解例如BMP图像结构、对图像处理以及opencv等诸多内容,锻炼了大家合作、研讨以及实际开发的能力。而且老师为了让每个人都得到锻炼,力争让每位同学都上台presentation,也不忘鼓励时而紧张的同学,也让我们积累了更多做汇报的经验。再次衷心感谢朱映映老师的真诚付出,祝该课程越来越好。
——文伟(2160230430)
 

《多媒体理论与技术》这门课程是与我的研究方向相关的基础课程,以理论知识为主。朱老师把枯噪的理论知识与课程实践结合起来,我们从中不仅学习了相关的知识,还锻炼了自己的工程能力,更多的是加深了对这个领域的理解。我们每个人都需要对自己的project作汇报,为了做好报告,我们都需要下不少的工夫。这不只是输入的过程,还有输出的过程,教会了我怎么去跟别人交流,怎么去跟团队合作,怎么去表达自己的观点。
——邱超明(2160230423)


目前,随着社交网络的发展,多媒体作为信息共享的重要载体,是互联网海量数据的重要数据源。因此,了解多媒体技术,分析多媒体内容是目前很重要的科研领域,所以我选择选修了《多媒体理论与技术》。经过一学期的课程学习,我了解了多媒体的基本概念、原理,音频技术的基础知识,图形与图像的存储、处理、压缩等技术。除此之外,也尝试自己去了解OpenCV的专题学习,通过课上每个成员的专题分享,不仅了解了一些基础知识,还学习到Presentaition的一些技巧。在最后的课程作业中,也掌握写论文报告的方法和技巧。总体来说,《多媒体理论与技术》这门课给我带来很多收获,对多媒体的基础知识有更深刻的理解,也了解到多媒体领域目前比较热门的深度学习应用场景。
——郑铭杰(2160230406)


很喜欢《多媒体理论与技术》这门课程,朱老师授课经验丰富,从多媒体的前世讲到今生,经常会把课上讲内容和生活中接触到的媒体结合起来,给我们很直观的认识。朱老师也喜欢关注最新的计算机图形学,深度学习和OpenCV的内容,在课堂和我们介绍。当然不仅有理论的知识,朱老师也会让学生在编程语言上实现对图像的处理。然后在课堂演示自己的成果,个人感觉课堂内容很丰富,气氛很活跃,朱老师也会耐心告知讲演中的问题和建议,在大家的讨论中自己学到很多。
听完多媒体理论与技术这门课以后,对现在学习数字图像处理,模式识别的课程都有很大帮助,同时自己也掌握了处理媒体数据的能力,受益很大。
——王炯(2160230509)