计算机视觉感知平台
返回首页

视觉是人类对世界最早的认知方式,也是最多样化的认知方式,不仅囊括通用场景的分析,也可拓展至字符识别和车辆识别等各垂直领域,以及增强现实和行为认知等关联方向。

计算机视觉感知平台主要研究视觉领域的通用技术,涉及图像/视频相关的检测、分类和语义理解等方向,具体包括OCR文字识别、通用图像识别、细粒度图像识别、图像检索、医疗图像识别、视频分析理解、视觉情感计算、机器感知等计算机视觉基础技术的研究,重点研究:

a) 图像分类:研究基于深度神经网络结构的大规模和细粒度分类算法,包括网络通用架构设计、注意力机制、多任务损失函数设计、模型压缩等技术,提出相应的优化算法,并给出实践效果和理论分析证明。此外,对典型的卷积神经网络结构如LeNet-5,Alex Net等,以及通用的递归神经网络结构进行优化,探索比以往算法更优的分类技术。

b )受脑启发的视觉深度学习:受脑的结构和功能启发,研究新的类脑深度学习模型,处理视觉信息图像和视频,包括物体检测、物体识别、图像分割等。重点研究反馈连接的作用、稀疏编码的作用、感知与记忆的交互、脉冲神经网络的构建等。

c )视频分析:结合时序信息,探索视频多粒度video-level / frame-level/pixel-level分析、视频的多模态分析、视频的生成预测等领域,重点研究带有记忆力机制的深度网络模型、卷积模型、对抗生成模型、度量学习等在上述领域的技术突破。





首页| 实验室概况| 机构设置| 新闻动态| 研究方向| 共享服务| 联系我们
©2017 Baidu 使用百度前必读