Seminar课程

可视计算 / 计算机与软件学院 / 黄惠、胡瑞珍

        本课程实行小班教学,以可视计算为背景,旨在重点训练学生的阅读外文文献能力、思考和分析问题能力、口头表达能力和创新思维能力。本课程将围绕可视计算中六个重要分支的经典以及近几年最新的前沿工作展开研讨,具体包括点云、曲面重建、图像与视频、几何对象、形状语义和场景建模及理解。本课程由教师布置学生在课下查阅资料和文献,进行理论学习和研讨准备;课堂上由教师组织学生围绕该主题或问题进行研讨,并对分析问题和解决问题的方法进行训练。本课程有5位来自于俄罗斯的访问学生选读,同时为了进一步培养学生的国际交流能力,全程采用英文教学,因此学生需要具备较强的英文听说读写能力。但是在专业知识方面,对学生没有特殊要求。在课程前期,教师会对本课程相关的基础知识做全面地介绍,让学生了解相应背景从而能准确理解文章的内核。 


参考文献:

[1] Fleishman, S., Cohen-Or, D., & Silva, C. T. (2005, July). Robust moving least-squares fitting with sharp features. In ACM transactions on graphics (TOG) (Vol. 24, No. 3, pp. 544-552). ACM.

[2] Nehab, D., Rusinkiewicz, S., Davis, J., & Ramamoorthi, R. (2005, July). Efficiently combining positions and normals for precise 3D geometry. In ACM transactions on graphics (TOG) (Vol. 24, No. 3, pp. 536-543). ACM.

[3] Curless, B., & Levoy, M. (1996, August). A volumetric method for building complex models from range images. In Proceedings of the 23rd annual conference on Computer graphics and interactive techniques (pp. 303-312). ACM. 

[4] Kazhdan, M., & Hoppe, H. (2013).Screened poisson surface reconstruction. ACM Transactions on Graphics (TOG), 32(3), 29.

[5] Nießner, M., Zollhöfer, M., Izadi, S., & Stamminger, M. (2013). Real-time 3D reconstruction at scale using voxel hashing. ACM Transactions on Graphics (TOG), 32(6), 169.

[6] Langguth, F., Sunkavalli, K., Hadap, S., & Goesele, M. (2016, October). Shading-aware multi-view stereo. In European Conference on Computer Vision (pp. 469-485). Springer International Publishing.

[7] Hoppe, H., DeRose, T., Duchamp, T., McDonald, J., & Stuetzle, W. (1992). Surface reconstruction from unorganized points (Vol. 26, No. 2, pp. 71-78). ACM.

[8] Pérez, P., Gangnet, M., & Blake, A. (2003, July). Poisson image editing. In ACM Transactions on graphics (TOG) (Vol. 22, No. 3, pp. 313-318). ACM. 

[9] Rother, C., Kolmogorov, V., & Blake, A. (2004, August). Grabcut: Interactive foreground extraction using iterated graph cuts. In ACM transactions on graphics (TOG) (Vol. 23, No. 3, pp. 309-314). ACM.

[10] Cheng, M. M., Mitra, N. J., Huang, X., Torr, P. H., & Hu, S. M. (2015). Global contrast based salient region detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3), 569-582.

[11] Alexa, M., Cohen-Or, D., & Levin, D. (2000, July). As-rigid-as-possible shape interpolation. In Proceedings of the 27th annual conference on Computer graphics and interactive techniques (pp. 157-164). ACM Press/Addison-Wesley Publishing Co..

[12] Sorkine, O., & Alexa, M. (2007, July). As-rigid-as-possible surface modeling. In Symposium on Geometry processing (Vol. 4).

[13] Igarashi, T., Moscovich, T., & Hughes, J. F. (2005, July). As-rigid-as-possible shape manipulation. In ACM transactions on Graphics (TOG) (Vol. 24, No. 3, pp. 1134-1141). ACM.

[14] Isenburg, M., Gumhold, S., & Gotsman, C. (2001, October). Connectivity shapes. In Proceedings of the conference on Visualization'01 (pp. 135-142). IEEE Computer Society.

[15] Sorkine, O., Cohen-Or, D., Lipman, Y., Alexa, M., Rössl, C., & Seidel, H. P. (2004, July). Laplacian surface editing. In Proceedings of the 2004 Eurographics/ACM SIGGRAPH symposium on Geometry processing (pp. 175-184). ACM.

[16] Hu, R., van Kaick, O., Wu, B., Huang, H., Shamir, A., & Zhang, H. (2016). Learning how objects function via co-analysis of interactions. ACM Transactions on Graphics (TOG), 35(4), 47.

[17] Kalogerakis, E., Hertzmann, A., & Singh, K. (2010, July). Learning 3D mesh segmentation and labeling. In ACM Transactions on Graphics (TOG) (Vol. 29, No. 4, p. 102). ACM.

[18] Hoiem, D., Efros, A. A., & Hebert, M. (2005, October). Geometric context from a single image. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on (Vol. 1, pp. 654-661). IEEE.

[19] Song, S., Yu, F., Zeng, A., Chang, A. X., Savva, M., & Funkhouser, T. (2016). Semantic scene completion from a single depth image. arXiv preprint arXiv:1611.08974.


Group 1

研讨专题:Point Clouds

问题描述:

(1)点云重建在计算可视化的相关背景和应用

(2)点云重建的主要方法

(3)选择几篇点云重建研究领域的重要论文向大家报告,并解答报告过程中的相关问题

参与报告学生:

谢凯西、Timur Valiullin

 

Group 2

研讨专题:Surface Reconstruction

问题描述:

(1)场景重建在计算可视化的相关背景和应用

(2)场景重建的主要方法

(3)选择几篇场景重建研究领域的重要论文向大家报告,并解答报告过程中的相关问题

参与报告学生:

崔云鹏、吴志杰、闫国航、周晓辉、Lilia Nizamova

 

Group 3

研讨专题Image & Video

问题描述:

(1)图像与视频处理在计算可视化的相关背景和应用

(2)图像与视频处理的主要方法

(3)选择几篇图像与视频处理研究领域的重要论文向大家报告,并解答报告过程中的相关问题

参与报告学生:

何灵利、安威志、袁剑虹

 

Group 4

研讨专题Geometry Elements

问题描述:

(1)几何处理在计算可视化的相关背景和应用

(2)几何处理的主要方法

(3)选择几篇几何处理研究领域的重要论文向大家报告,并解答报告过程中的相关问题

参与报告学生:

黄升球Anna RepinaValerii Bagaveev

 

Group 5

研讨专题Shape Semantics

问题描述:

(1)形状语义分析在计算可视化的相关背景和应用

(2)形状语义分析的主要方法

(3)选择几篇形状语义分析研究领域的重要论文向大家报告,并解答报告过程中的相关问题

参与报告学生:

闫子豪、Ayrat Mutygullin

 

Group 6

研讨专题Scene Modeling & Understanding

问题描述:

(1)场景建模与理解在计算可视化的相关背景和应用

(2)场景建模与理解的主要方法

(3)选择几篇场景建模与理解研究领域的重要论文向大家报告,并解答报告过程中的相关问题

参与报告学生:

杨浩、陈秋阳


        本课程的创新思路主要体现在内容和形式两方面。


        在课程内容上,本课程围绕可视计算中六个重要分支中的经典以及近几年最新的前沿工作展开研讨,具体包括点云、曲面重建、图像与视频、几何对象、形状语义和场景建模及理解。点云、曲面重建、几何对象是计算机图形学的基础课题,具有悠久的发展历史,通过对其整个发展历程的梳理,重点工作的介绍,可以帮助学生对三维几何处理有一个清晰的认识。图像与视频主要是计算机视觉的主要研究对象,也是可视计算领域在日常生活中最容易接触到的数据形式。计算机视觉相对于计算机图形学,研究重点较为集中,研究问题更为明确,通过对几个关键问题的探讨,学生可以对计算机视觉的基础研究方向有所了解。最后,形状语义和场景建模及理解,是近两年随着机器学习和人工智能的发展逐渐行程的研究热点,旨在对物体和场景形成高层次的、如人一样的的理解,以辅助人工智能。通过对于当前研究热点的探讨,学生可以对最新的发展趋势和学术动态有更深入的了解。


        在课程形式上,本课程采用全英文教学,由教师布置学生在课下查阅资料和文献,进行理论学习和研讨准备;课堂上由教师组织学生对阅读的论文进行报告,并围绕该主题进行研讨,对分析问题和解决问题的方法进行训练。为了让学生在学习过程中有一个较为清晰的脉络,以及有一个明确的报告标准。在前6周课程中,主要由教师对相关知识背景进行介绍,指导学生以更加科学有效的方式进行论文的阅读,并进行文章的报告示范,对一个好的学术报告所需要具备的特质进行详细阐述和举例说明。从第7周开始,每周将由两名学生对其从阅读的文章进行报告,并由教师组织其他学生一起在课堂上对论文的核心思想、主要贡献以及解决问题的思路进行讨论和总结。此外,对于每位报告的学生,在课堂报告前,都可在课后找开课教师进行试讲来增强其对文章的理解以及完善报告,从而最大化课堂上的讨论效率。



Group 1


Efficiently combining positions and normals for precise 3d geometry》:


研究背景:

    己有的扫描方法都难以重建镜面物,主动扫描方法如激光散、结构光的光由镜面反射之后以被视角不正确的相机采集到,基于阴影的重建方法需要物体表面符合朗伯反,但是镜面并不符这一要,基于轮廓的重建方法除了精度问,还有难以检测镜面物体轮廓的问。如果在物体的面涂上白色灰,则可以令其表面符合朗伯反射而得以用传统方法去扫,但是这样的行为是不切实际的,它可能会破坏物体。


方法概述:

    本文提出了一个新的重建方法,仅采用廉价的硬件(显示器和相机)来采集数据流程如图1-1所示。

1.jpg

图1-1:A: 将不同频率的图案投影到物体,再用相机采集图;B: 得到的图;C: 利用不同频率图案的干涉得到物体的抠;D: 通过在不同的路径上整合法线,利用表面的连贯性将抠图转化为物体的法线图和深度图;E: 最终结果。

  由于采集单张图的图案被物体表面反射后的图像来重建表面的方法无法获得高质量的重建结果,再加上想要独立重构图像中每个像素对应的图案的坐标,本文的方法是使用4张不同图案的图像,这些图案是一系列的红绿蓝条纹,条纹的位置由设计好的函数决定,如图1-2所示。然后由对每一个图案,我们采集一张照片,这样就能得到4张不同的条纹图。对于图片中的每一个像素,我们能从4张图片中得到4个不同的颜色, 首先我们可以通过这些颜色信息,计算出这4个颜色分别在条纹内部的哪个位置,然后通过4张图案之间的干涉,我们可以求出与4张图片的同一个位置的像素点分别对应4张条纹图案中的哪条条纹, 根据以上条件解一个超定方程组,可以求出相机图像的点和显示器上的点的对应关系。

1.jpg

图1-2: 条纹图案

  得到了对应关系后,就可以进行几何重建了。通过进行相机和显示器的标定,获得相机的视角向量以及显示器上的像素点和世界坐标系下的空间点的对应关系。首先在抠图中选择一点,给它赋予一个深度值,再计算出它的法线,利用这些信息,可以计算出其相邻点的法线和深度值,不断地重复这一过程,就可以从抠图中得到整个物体表面的法线图和深度图。然而这样的重建结果依赖于给定的初始深度值,初始深度值不同,重建出的表面的尺度也会不同,这种深度值的不明确性可以使用多显示器投 影获得,然而这种方法需要在每次扫描时重新做显示器校准,大大地增加了采集时间, 而本文给出的方法是, 计算不同初始深度值下表面的不连贯性,使得不连贯性最小的深度值即为最优的初始深度值, 如图1-3所示。

1.jpg

图 1-3: 不相关性函数,X轴代表初始深度值,单位毫米,Y轴代表在对数尺度下的不相关性值。


创新性分析:

本文的主要贡献在于在采集数据和重建方法上做出了新的突破,采集多张图像获得抠图比单张图 像的精度要高,能达到亚像素精度,其中通过图案的干涉求出图像的点和显示器上的点的对应关系是本文的亮点之一,另一个亮点是采集数据的硬件设备非常低廉。


Group 2


A Volumetric Method for Building Complex Models from Range Images》:


研究背景:

    从扫描仪获取的深度图重建模型己经应用于建筑、医疗、工业和艺术等众多领域。通过体素方法,进行模型重建有着算法简单,易于迭代,方便漏洞修补等优势。本文通过可以获取深度图的相机或者扫描仪,根据其深度图获得体素信息,通过合并体素实现深度信息的合并,然后提取对应的体素获得重建出来的表面。本文通过己有结论,确定依照本文合并方法可以获得根据所有深度信息生成的最小二乘面,该面从距离上是一个表面生成的最优解。


方法概述:

    表面合并:为了方便理解,首先从有符号距离函数和体素法开始说明。有符号距离函数是一种对空间内某一曲面的隐形表示法,它将与表面相近的体素标记为某一区间内的值,而表面上的体素标记为0,越靠近表面就越接近0。而多个SDF函数中每个对应点分别进行加权合并后,空间中的某一点就融合了多张深 度图的信息。本文中最重要的部分为表面合并,其主要思想为,根据扫描仪特性和系统误差考虑生成权值,在该权值的作用下,进行使用有符号距离函数(SDF)表示的体素合并。这种合并在数学上可以证明是到所有图片序列中的对应点距离最小二乘的,也就是几何意义上的最优解。表面合成过程如图2-1所示。

1.jpg

图2-1: 表面合成过程示意

  漏洞填补:在提取表面过程中,由于遮挡和扫描丢失信息等问题,表面可能会出现空洞。对于一个连续表面进行重建时,可以按照本文中所提出的方法进行漏洞补全。首先,将空间中所有点分为3类:不可见、表面附近、空。不可见指该体素位于表面之后且SDF值为表示过远的最大值,表面附近指SDF在区间内的体素,也就是有实际意义的体素,空为在表面与相机之间的体素,其SDF为表示过近的最小值。


创新性分析:

    该论文通过把扫描而来的深度图像转化为体素,合并体素信息,完成深度信息的合并,并从体素中提取出模型表面,还对光滑平面上的可能出现的漏洞提出一种修补方法。该文中提取方法符合了一个表面重建算法的应有特点,尤其是对系统误差的考虑,非常重要。该文工作综合了前人的工作,并且把以往未应用于表面提取的内容应用于该问题上,最后获取了良好效果。该方法的局限性在于两点: 算法上的局限性和设备上的局限性。算法主要针对无孔平面进行重建,物体如果有过多交互重叠的矮空部分,十分影响补洞算法。此外,该算法对锐角的处理有缺陷。另外重 叠的薄表面也难以重建。扫描仪只能提供外部的扫描数据, 没有内部空腔的数据。另外光学扫描仪必须观察表面上每一个点,复杂的物体需要大量反复扫描。物体的反射度也对扫描的结果有影响。


Group 3


Frequency-tuned Salient Region Detection》:


研究背景:

    人类总是能够快速捕捉到一个场景中最吸引人的前景物体,也就是文章所称的显著性物体,显著性与图像的颜、梯、边界等属性相。提取显著性图像可应用于计算机视觉领域,例如对感兴趣目标物体的图像分割,目标识别,内容感知图像编辑以及图像检索。因此,提供可靠的显著性区域检测方法是计算机视觉以及计算机图形学算法的重要基


方法概述:

    文章介绍的显著性区域检测的方法,其输出具有全分辨率显著图对象的明确界限。通过将整个图像作为像素的领域来实现从原始图像中保留比其他现有技术更多的频率内容,因此具有明确的边界。利用了颜色和亮度的特征,实现起来很简单,计算效率高。这篇算法它受到中心环绕对比度的生物学概念的启发,但不基于任何生物学模型。引入了频率调整的方法来估计中心-环绕对比度, 使用颜色和亮度特征, 与之前的其他方法相比, 具有三个优点:统一突出显着区域, 界限清晰, 全分辨率和高效的计算效率,其流程图如下(图3-1):

1.jpg

图3-1: 区域检测流程图

创新性分析:

  本工作是在Lab颜色空间进行计算,这是一种基于生理特征的颜色系统,其色域比人类视觉更大,使用这个颜色系统能更好的切近人类视觉反。三个工作都是计算图像中对比度来突出图像中的显著性物。本工作在不同尺度的滤波器下对小的显著性物体探测结果比较好,如果显著性物体占据图像比较大区域时,效果不



Group 4


《Content-PreservingWarps for 3D Video Stabilization》:


研究背景:

    Three-dimensional geometric models are the base data for applications in computer graphics, computer aided design, visualization, multimedia, and other related fields. In the virtual world of computer graphics, instead of using physical particles to represent fluid or solid, we prefer triangle mesh to discretize a 3d model. A triangle mesh is a type of polygon mesh made of a set of triangles that are connected by a set of sample points (typically in three dimensions). The more points are sampled, the finer model we get.

    Normally we need to assign new 3d coordinates to those discrete points one by one if we want to do some editing in mesh represented models like Figure 5-1 do. Obviously, these kinds of task are extraordinarily tedious and impractical which leads to a urgent demand for a more intelligent editing tool to make this process easier and more intuitive.

捕获.JPG

Figure 4-1 Mesh editing process. To get (b) from (a), we need move every single vertex in (a) to its target position in (b).


方法概述:

    This this technique has been assembled into the world famous video processing software Adobe After Effects. First, it recovers the 3D camera motion and a sparse set of 3D, static secne points using an existing structure-frommotion(SFM) system. Then, the system automatically fits a camera path to the input based on users preference and this path will guide the warping method in the following step.Next this technique performs a least-squares optimization that computes a spatially-varying warp from each input video frame into an output frame. This warping step is to solve a energy optimization problem as before. Different to the concept 'rigidity', uniform scaling is acceptable since objects may need to move closer or farther form the camera. And normally we do not more the camera too far which makes we do not need to consider the affine transform. They discretizing the warp into a grid and minimizing an energy function of two weighted energy term: a data term for each sparse displacement, and a similarity transformation term that measures the deviation of each grid cell from a similarity transformation. In addition, we need preserve salient image content while changing the size of image because we can not avoid scale down the video during stabilization. So the similarity transformation is weighted by the salience of the grid cell. In this method, dynamic content and other temporal properties of video are preserved because each output frame is rendered as a warp of a single input frame. Once the system solved the camera path, the warping step can execute automatically.


创新性分析:

    Sometimes the energy is linear, sometimes it is not. The whole point is to find the right energy and a solution whether by obtaining a closed-form solution or by minimizing it iteratively.

    we can apply the powerful ARAP energy concept and its extensive expression in the area of shape interpolation or morphing, shape manipulation, surface modeling and even video stabilization. Based on that, there are se possible way to extend the border. Of course, we shall apply the ARAP approach in more interesting case like all the authors mentioned before do. And instead of this particular ARAP energy there is still a need for further investigation on the expression of other energy term. Maybe we can combine other techniques with this. And I believe to solve this kind of minimization problem can be exploited to solve a number of problems in computer graphics.


Group 5


《Functionality analysis》:


研究背景:

    Recently in the field of shape analysis, increasing efforts have been devoted to obtaining a functional understanding of 3D objects from their geometries and interactions. Three representative works on functionality  analysis are introduced in this paper: contextual descriptor, learning functionality  model via co-analysis, part mobility model learning from snapshots. Three of them belong to the progressive relationship.  First, the contextual descriptor named ICON is proposed aims to provide a geometric description of the functionality  of a 3D object. Then, a co-analysis  method which learns a functionality  model is introduced, this enable the analysis for a single object without context. Finally, the work of functionality  analysis is extended from static to dynamic  through a data-driven approach for learning  a part mobility model, which can predict mobilities for parts of a object.


方法概述:

Contexual descriptor:

    The input to ICON construction consists of a 3D object, the central object, provided together with a surrounding  scene. The construction is started by identifying the interacting objects in the scene and extracting  an initial set of pairwise interactions of the central object with all interacting objects. For each pairwise interaction,  two entities are computed : the interaction bisector surface (IBS) and the interaction region (IR). Finally, the interactions of an object are organized in a hierarchy that captures the general structure of the objects interactions.

1.jpg


Figure 5-1: Overview of construction and matching of ICONs. Given an input scene with the central object (orange table) in (a), we detect interactions between the central object and other objects. The interacting  objects are shown with bright colors in (b), while non-interacting  objects (the apple and banana) are shown in gray. Next, we group the interactions into a hierarchical  structure to obtain the ICON descriptor shown in (c). Each leafnode corresponds to an interaction  and has the same color as the object in (b) that gives rise to the interaction, while internal nodes group similar interactions. (d) shows the descriptor  ofthe scene in (e). The two ICON descriptors in (c) and (d) are matched by finding a common subtree isomorphism.  We obtain the intuitive correspondence between objects on the tables and chairs, shown by the matched portions ofthe hierarchies selected by the dashed contours. Note that the floor and extra objects in (e) do not have a match.

Co-analysis:

    Each input shape, which  called a central object, is provided  within a scene context from  where we derive the interactions between the central and other objects. First, the interactions in each scene are analyzed independently  and represented with features derived from geometric  entities  such as the interaction  bisector surfaces and the interaction regions. Next, the co-analysis is performed by deriving the functional  patches for each shape from the interaction regions and establishing  a correspondence  between patches that support the same interactions.   Then, the properties of all corresponding  patches are aggregated to create the proto-patches, and the functionality model is learnt.  Based on the functionality  model, the functionality  scoring can be performed to do prediction.

1.jpg

Figure 5- 2: Overview of the construction  and use of our functionality model. (a) Given a set ofobjects  ofthe same category, where each object is given in the context ofa scene, we detect functional  patches that support different types ofinteractions  between objects. Example patches are shown as a rainbow  color map on the surface of the shape, where values closer to red indicate that a point belongs to the patch with higher probability. (b) We then learn a model that discovers the functionality  ofthe class, describing functionality in terms ofproto-patches that summarize the patches in the collection with their properties. (c) Given an unknown object in isolation,  we use the model to predict how well the object supports the functionality  of the category.


Part-mobility model: 

    The input to the training  is a set of shapes in upright orientation and with parts segmented into separate geometries.  The parts are grouped into mobility units, where each unit is composed of a moving  part and a reference part. Part mobility model is composed of the start and end snapshots of each unit and a static-to-dynamic  mapping function learned from training data. The learnt part mobility model can predict mobilities  for parts of a 3D object given in the form of a single static snapshot reflecting the spatial configuration  of the object parts in 3D space, and transfer the mobility from relevant units in the training data.


创新性分析:

    In the first work, a novel contextual descriptor ICON  is introduced,  it is designed to describe the interactions of an object in the context of a surrounding  scene. The description of interactions  encodes the geometry of interactions between the central object and the surrounding  objects and organizes these interactions into a hierarchy. This contextual descriptor of interactions has much potential in being used to analyze the functionality  of an object. Since the descriptor can only analyze objects with context, the next work  develope the co-analysis method based on ICON.  Through  co-analysis, we learn a functionality model for a given object category. The learned category functionality  models allow us to both infer the functionality  of an individual  object and perform functionality-aware  shape modeling.  However,  these two works are based on static interactions,  so, a part mobility model is introduced in the third work, the model can be learned from few static snapshots of mobility units, not requiring  the use of dense snapshot sequences capturing  the motion  of the units.




Group 6


Geometric Context from a Single Image》:


研究背景:

  从一张简单的图像中进行物体识,对于我们人类来说似乎毫不费,但对于电脑来说却是困。因为识别物体本质上是一个全局的过。当我们看到角落的一个行人,这一景象会变成一图像传递给我们大,我们的大脑判断行人这一物体,不只通过人物的轮廓判,还通过其他线索, 如他站立的表,所处的环境等。然而当前的一些计算机视觉系统单纯使用局部信息来进行物体识别。如上面所举的例,在识别物体的时候不只使用的是物体本身所具有的信,物体所处的环境 也有很多信息可以反。所以如果我们想让电脑识别物体接近人类识别物体的水,必须在物体识别任务中考虑一些全局上下文信息。


方法概述:

  在对单一图像中的场景和对象进行建模前,本文先使用效果较好的对象检测器和表面分割算法提取出对象和表面的候选者,例如汽车、行人、垂直或水平表面区域。每个对象/表面候选者基于它们的2D外观给出了全局3D几何(即重力方向和地平面参数)的估计。然后使用广义RANSAC算法将这些 曹杂的估计值合并在一起,以生成一组全局3D几何假设。给定每个假设,本文计算每个对象/表面候选 者的兼容性,并根据全局和局部3D几何环境推断其有效性。计算结果将获得每个假设的质量。最后选择最高质量的假设作为全局3D几何的最优估计,对象候选估计的结果结合最佳假设给出最终对象检测结果。

  对场景和其中的物体进行建模:在这一步中,本文使用的是如下所示的摄像机坐标系。下面所有的变量被分为两组,一组是包含描述全局3D集合的全局变量:(方向)重力方向、地平面方向、地平面高度。第二组包含各个对象特定的局部变量: 对象垂直方向、俯仰角、滚动角等,如图6-1。

1.jpg

图6-1 相机坐标系下的场景与对象建模

  每个对象/表面候选估计的全局3D几何:对于每个候选对象:上一步中定义了对象与对象之间、对象与场景之间的一些等式约束,本文从每 个2D候选对象的外观估计他们的垂直方向的非参数分布。给定垂直方向,每个候选对象还根据其大小 和位置为地平面高度提供线索。对于每个候选表面: 给定像建筑立面的垂直表面区域,提取其中的长边,并使用高斯球体计算垂直和水平消失点,进一步计算候选表面的垂直方向信息。

  用广义ransac算法产生全局3D几何假设:RANSAC取得成功的关键之一是至少有一个假设应该接近于实际。在本文的情况下,单个对象/表面候选者(即观察)单独可以产生全局3D几何的假说。理想情况下,本文可以简单地使用单个观察(即最小集合)来生成假设。然而,作为单一观察(即使它们是真实的检测)也会出现曹杂情况,最小集合产生的假设不可能接近于实质。另一方面,如果使用相同权重的所有观察值,则错误检测将会很容易破坏该假设。因此,本文提出了广义的RANSAC算法来抑制异常值并降低呆声。在每个对象/表面候选者估计了全局3D几何的分布信息之后,通过将各个分布信息与随机生成的权 重混合来生成一组混合分布。对于每个混合分布,使用均值移位算法找到其模式,并将这些模式作为假设。当混合分布集合足够大时,其中至少有一个主要来自有效的对象/表面候选。此外,通过找到混合分布的模式(相当于平均值),也降低了噪声水平。

  构建CRF进行全局3D几何假设评估:假设评估使用CRF(Conditional Random Field),CRF考虑了全局3D几何上下文中各个对象的兼容性以及局部3D几何环境下相邻对象之间的兼容性。


创新性分析:

  文章第一次提出从图像中提取全局几何上下文信息,但是实验结果中一些几何上下文信息提取的准确率不高,所以未来如果要继续提高训练准确率,这篇文章定义的几何上下文特征没有前人工作借鉴,所以可能特征并不是能很好的表现几何上下文,所以未来的工作可以往能表达全局集合上下文信息的特征这一方向继续研究。


        本课程实行小班教学,以可视计算为背景,旨在重点训练学生的阅读外文文献能力、思考和分析问题能力、口头表达能力和创新思维能力。学生通过阅读英文文献,并用英文进行报告和研讨,对其外文文献阅读能力、思考和分析问题能力、创新思维能力、口头表达能力和英语交流能力的提高都有所帮助。但是由于学生对于可视计算这个方向不太了解,一些基本概念都没接触过,同时受到英语口语水平的限制,学生对重要知识点的理解方面还有所欠缺,后续可以进一步探讨更为循序渐进的课程内容和形式。


report_Timur.pdf

report_Valerii.pdf

report_Liliia.pdf

report_Ayrat.pdf

report_Anna.pdf

2160230429_闫国行_实时三位重建.pdf

2161230229_崔云鹏_VRIP.pdf

2161230233-安威志-Image segmentation.pdf

2160230435_杨浩_从单一图象提取几何上下文.pdf

2160230439_闫子豪_Functionality analysis.pdf

2160230421_黄升球_As-Rigid-As-Possible Shape Interpolation:Shape Manipulation:Surface Modeling.pdf

2160230433_陈秋阳-Low Resolution Problem in Semantic Scene Completion.pdf

2160230416_何灵利_基于泊松图像编辑的研读报告.pdf

2160230418_谢凯西_关于镜面物体重建的学习报告.pdf

2161230231_袁剑虹_基于全局对比度的区域性检测.pdf


hello world

教学设计方案:

        本课程采用全英文教学,由教师布置学生在课下查阅资料和文献,进行理论学习和研讨准备;课堂上由教师组织学生对阅读的论文进行报告,并围绕该主题进行研讨,对分析问题和解决问题的方法进行训练。

        为了让学生在学习过程中有一个较为清晰的脉络,以及有一个明确的报告标准。在前6周课程中,主要由教师对相关知识背景进行介绍,指导学生以更加科学有效的方式进行论文的阅读,并进行文章的报告示范,对一个好的学术报告所需要具备的特质进行详细阐述和举例说明。

        从第7周开始,每周将由两名学生对其从阅读的文章进行报告,并由教师组织其他学生一起在课堂上对论文的核心思想、主要贡献以及解决问题的思路进行讨论和总结。此外,对于每位报告的学生,在课堂报告前,都可在课后找开课教师进行试讲来增强其对文章的理解以及完善报告,从而最大化课堂上的讨论效率。

        在课程结束后,每位学生需要以课堂报告论文为核心,拓展阅读至少2篇相关论文,撰写阅读报告,以综合检测本学期的教学效果和学生的掌握情况。


课程考核方式:

1) 平时成绩(10%) 

    a)     课堂出勤率(无故旷课一次即总成绩不合格,请假不得超过两次)

    b)     研讨参与度(提问题、研讨表现)


2) 课堂报告(40%)

    a)     报告内容从给定的6个主题的论文列表中选择

    b)     根据报告评价标准,由老师学生现场打分


3) 期末研读报告(50%)

    以课堂报告论文为核心,拓展阅读至少2篇相关论文,撰写阅读报告(中英文均可)。


    报告要求:

    a)       对报告论文进行简明扼要的介绍:研究背景、论文亮点、主要贡献;

    b)      重点介绍相关的两篇论文:可以采用对比研究的方式来介绍,也可以分别介绍,注意清晰简明,切勿大篇幅拷贝粘贴原文或大量使用原文图片充空间;

    c)       最后的结论部分,要有对这几篇论文、相应研究方向的总结和分析,以及个人的研究体会等;

    d)      对这些工作的未来改进的建议、想法等;

    e)       电子版A4纸,至少4页,采用Latex模板撰写

    

    评分办法:由老师和教辅评分,主要考察报告是否清晰、翔实,对比研究是否完整、正确、合理,总结和体会是否认真。若发现抄袭,直接零分处理。


4) 附加Demo展示(10%)

    根据选取的报告主题,找到相关工作所提供的代码,运行成功并展示一些新的结果。


Group 1

主题报告与相关问题解答记录:

 

Robust moving least squares fitting with sharp features(Timur).pptx

Efficiently Combining Positions and Normals for Precise 3D Geometry(Kaixi Xie).pptx


研讨过程记录:

IMG_0766.JPG

IMG_0785.JPG

IMG_0805.JPG



文献阅读与研讨:

[1] Fleishman, S., Cohen-Or, D., & Silva, C. T. (2005, July). Robust moving least-squares fitting with sharp features. In ACM transactions on graphics (TOG) (Vol. 24, No. 3, pp. 544-552). ACM.

[2] Nehab, D., Rusinkiewicz, S., Davis, J., & Ramamoorthi, R. (2005, July). Efficiently combining positions and normals for precise 3D geometry. In ACM transactions on graphics (TOG) (Vol. 24, No. 3, pp. 536-543). ACM.

 

Group 2

主题报告与相关问题解答记录:

 

A Volumetric Method for Building Complex Models from Range Images(Yunpeng Cui).pptx

Shading-aware Multi-view Stereo(Xiaohui Zhou).pptx

Poisson Surface Reconstruction(Zhijie Wu).pptx

Real-time 3D Reconstruction at Scale using Voxel Hashing(Guohang Yan).pptx

Surface Reconstruction from Unorganized Points(Nizamova Liliia).pptx


研讨过程记录:

IMG_0794.JPG

IMG_0817.JPG

IMG_0871.JPG

IMG_0874.JPG

IMG_0879.JPG


文献阅读与研讨:

[1] Curless, B., & Levoy, M. (1996, August). A volumetric method for building complex models from range images. In Proceedings of the 23rd annual conference on Computer graphics and interactive techniques (pp. 303-312). ACM. 

[2] Kazhdan, M., & Hoppe, H. (2013).Screened poisson surface reconstruction. ACM Transactions on Graphics (TOG), 32(3), 29.

[3] Nießner, M., Zollhöfer, M., Izadi, S., & Stamminger, M. (2013). Real-time 3D reconstruction at scale using voxel hashing. ACM Transactions on Graphics (TOG), 32(6), 169.

[4] Langguth, F., Sunkavalli, K., Hadap, S., & Goesele, M. (2016, October). Shading-aware multi-view stereo. In European Conference on Computer Vision (pp. 469-485). Springer International Publishing.

[5] Hoppe, H., DeRose, T., Duchamp, T., McDonald, J., & Stuetzle, W. (1992). Surface reconstruction from unorganized points (Vol. 26, No. 2, pp. 71-78). ACM.

 

Group 3

主题报告与相关问题解答记录:

 

Poisson Image Editing(lingli he).pptx

Global Contrast based Salient Region Detection(Jianhong Yuan).pptx

GrabCut - Interactive Foreground Extraction using Iterated Graph Cut(Zhiwei An).pptx


研讨过程记录:

IMG_0902.JPG

IMG_0936.JPG

IMG_0910.JPG


文献阅读与研讨:

[1] Pérez, P., Gangnet, M., & Blake, A. (2003, July). Poisson image editing. In ACM Transactions on graphics (TOG) (Vol. 22, No. 3, pp. 313-318). ACM. 

[2] Rother, C., Kolmogorov, V., & Blake, A. (2004, August). Grabcut: Interactive foreground extraction using iterated graph cuts. In ACM transactions on graphics (TOG) (Vol. 23, No. 3, pp. 309-314). ACM.

[3] Cheng, M. M., Mitra, N. J., Huang, X., Torr, P. H., & Hu, S. M. (2015). Global contrast based salient region detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3), 569-582.

 

Group 4

主题报告与相关问题解答记录:

 

Connectivity shapes(Anna Repina).pptx

Laplacian Surface Editing(Bagaveev).pptx

As-Rigid-As-Possible Shape Interpolation-Surface Modeling-Shape Manipulation(Shengqiu Huang).pptx


研讨过程记录:

DSC02484.JPG

DSC02492.JPG


文献阅读与研讨:

[1] Alexa, M., Cohen-Or, D., & Levin, D. (2000, July). As-rigid-as-possible shape interpolation. In Proceedings of the 27th annual conference on Computer graphics and interactive techniques (pp. 157-164). ACM Press/Addison-Wesley Publishing Co..

[2] Sorkine, O., & Alexa, M. (2007, July). As-rigid-as-possible surface modeling. In Symposium on Geometry processing (Vol. 4).

[3] Igarashi, T., Moscovich, T., & Hughes, J. F. (2005, July). As-rigid-as-possible shape manipulation. In ACM transactions on Graphics (TOG) (Vol. 24, No. 3, pp. 1134-1141). ACM.

[4] Isenburg, M., Gumhold, S., & Gotsman, C. (2001, October). Connectivity shapes. In Proceedings of the conference on Visualization'01 (pp. 135-142). IEEE Computer Society.

[5] Sorkine, O., Cohen-Or, D., Lipman, Y., Alexa, M., Rössl, C., & Seidel, H. P. (2004, July). Laplacian surface editing. In Proceedings of the 2004 Eurographics/ACM SIGGRAPH symposium on Geometry processing (pp. 175-184). ACM.

 

Group 5

主题报告与相关问题解答记录:

 

Learning 3D Mesh Segmentation and Labeling(Mutygullin Ayrat).ppt

Learning How Objects Function via Co-analysis of Interactions(Zihao Yan).pptx


研讨过程记录:

DSC02511.JPG

DSC02515.JPG

IMG_0946.JPG


文献阅读与研讨:

[1] Hu, R., van Kaick, O., Wu, B., Huang, H., Shamir, A., & Zhang, H. (2016). Learning how objects function via co-analysis of interactions. ACM Transactions on Graphics (TOG), 35(4), 47.

[2] Kalogerakis, E., Hertzmann, A., & Singh, K. (2010, July). Learning 3D mesh segmentation and labeling. In ACM Transactions on Graphics (TOG) (Vol. 29, No. 4, p. 102). ACM.

 

Group 6

主题报告与相关问题解答记录:

 

Geometric Context from a Single Image(Hao Yang).pptx

Semantic Scene Completion from a Single Depth Image(Qiuyang Chen).pptx


研讨过程记录:

IMG_0952.JPG

IMG_0954.JPG

IMG_0957.JPG


文献阅读与研讨:

[1] Hoiem, D., Efros, A. A., & Hebert, M. (2005, October). Geometric context from a single image. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on (Vol. 1, pp. 654-661). IEEE.

[2] Song, S., Yu, F., Zeng, A., Chang, A. X., Savva, M., & Funkhouser, T. (2016). Semantic scene completion from a single depth image. arXiv preprint arXiv:1611.08974.


杨**:

    可视计算这门课主要涉及的是计算机图形学、计算机视觉的知识,这门课的主要上课形式是以研读论文、课堂上分享论文为主。

    前期老师会提供一些计算机图形学、视觉领域的优秀论文给大家选择,之后有几周的时间供大家研读所选论文和制作PPT供课堂分享。准备期间老师还会邀请国外来访的外教以讲座的形式为我们授课,讲座主要的内容一般是来访教授的研究和近期发表的论文。这门课的上课形式比较新奇,不是老师单纯地在课堂上讲ppt,风格自由,每个人研读论文,再以报告的形式分享给其他人,一个学期下来,可以让我们了解到十几二十篇论文,包括他们的思想、算法、原理和一些细节。而且课堂论文分享是以英文汇报的形式,这也大大增强了我们的英语演讲技巧和听说能力。演讲之前任课老师也会帮我们检查我们对论文的理解是否正确还有PPT的制作是否合理,如果有不合理之处都会细心给我们指出,让我们以最好的状态展示结果。总而言之,这门课让我受益匪浅。 


黄**:

    在2017年上半学年,黄老师和胡老师任教的可视化课程的半年里,为了更好的开拓我们的视野,让大家更好的开展自己相关方面的研究,主要通过学生自己选择经典论文进行研读,独立研究,课堂报告,一起讨论的方式来进行学习。计算机图形学的研究内容非常广泛,如图形硬件、图形标准、图形交互技术、光栅图形生成算法、曲线曲面造型、实体造型、真实感图形计算与显示算法、非真实感绘制,以及计算可视化、计算机动画、自然景物仿真、虚拟现实等。在这期间我们,通过老师和大家的一些探讨,逐步了解了计算机图形学的脉络,增强了见识,自身理论水平,报告演讲水平,动手能提都得到了显著的提升。特别是在我们做出自己所选文章的报告后,老师们的一针见血的点评和一些建议,对我们以后养成良好的科研习惯、科研思维大有裨益。


闫**:

    这学期我学习了《计算机图形学》这门课,上课的形式和方法和传统的课程有很大的不同。
    前三周的课程,首先是由可视计算中心的外籍教授Oliver为我们上的,内容是创新和创新思维。这节课中,老师告诉了我们怎样才能找到好的点子,如何用不同观点去看待问题。课堂上还有很多的互动,来发散我们的思维,气氛非常活跃,平时比较腼腆的同学也都积极的参与到课堂中来。
    后面的课程,主要就是由每一位同学阅读老师精心挑选的论文,然后在课堂上为大家做汇报。这些论文涵盖了图形学的很多方面,都是其中非常经典和有代表性的论文。同学可以自由选择感兴趣的来阅读和报告。这样的形式,与传统的授课式相比,同学们不是被动的接收知识而是主动去学习和理解,最终能学到很多图形学的知识。


周**:

    在2017年上半学年,作为可视计算的学生,很感谢黄惠老师、胡瑞珍老师、周漾老师以及外专Oliver Deussen教授的辛苦指导与付出。

 最初听到课程要求全程英文授课、交流和汇报,倍感压力,但Oliver Deussen教授的“创造力”先导课用寓教于乐的方式讲述了创造力的what、how问题,有效的缓解了这份压力,使我们快速融入其中。随后的可视计算这门课程,考虑到大部分没有相关报告经历,老师也贴心的做了关于如何阅读论文、如何制作PPT以及如何汇报的讲解与示范,受益颇多。课程采取的是论文研读(报告+提问)的形式,每个人都既是学习者又是参与者,为了做好自己的报告以及对同学的报告做好点评,自己会阅读大量与选题相关的论文、制作PPT、反复试讲,潜移默化中极大地调动能动性,自己的主动学习、表达及论文阅读能力都得了很大的提升。

 可视计算这门课程,老师的生动讲解与幽默,学生活跃的思维以及课程浓厚的讨论氛围都给我留下了很深的印象,其中关于创造力、论文研读以及论文汇报都将继续指导我以后在图形学领域的继续学习深造。


袁**:

    可视计算这门课程开课时吸引了众多同学,怀着好奇的心情选了这门课,现在我庆幸自己的决定,让我见识了崭新的上课方式,有趣的课题。偶尔有来自异国的专家教授为我们授业解惑,为我们打开新世界的大门,了解到国际前沿学者的科研动态,感谢黄惠老师以及胡瑞珍老师为我们提供如此宝贵的机会,拓宽我们的眼界。

    这门课是全英文授课,刚开始还有些不适应,后面每个人都需要上台准备一个简短的汇报,对我们每个人来说都是一个挑战,不仅需要熟练专业知识,流利的讲解,更需要克服上台的紧张心理。经过这次的锻炼,我勇敢的跨出了这一步,是我学术生涯小小的前进,希望未来有更多的人受益于这门课程。