近日,人工智能领域顶级学术会议NeurIPS 2025成功举办,汇集了全球学术界领袖的前沿研究与精彩演讲。其中一项备受瞩目的荣誉——时间检验奖(Test of Time Award)——授予了由任少卿、何恺明、Ross Girshick和孙剑共同撰写的里程碑式论文《Faster R-CNN》。
对于计算机视觉从业者而言,这篇论文堪称经典中的经典。自2015年发表以来,《Faster R-CNN》不仅奠定了现代目标检测的基本框架,更如同一座指引灯塔,深刻塑造了过去十年视觉模型的发展轨迹。
论文地址:https://arxiv.org/pdf/1506.01497
为纪念这一历史时刻,何恺明在大会上作了题为《视觉目标检测简史》的演讲,不仅回顾技术演进,更描绘了一部计算机如何学会“观看”的壮阔史诗。
何恺明演讲PPT已公开,链接如下:https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf
演讲中涵盖的每一项工作均曾获时间检验奖,对视觉智能发展起到关键作用。或许您会好奇:为何现今AI能瞬间识别图像中的物体及位置,而十多年前这却近乎天方夜谭?
让我们跟随大神视角,回溯那个“手工时代”,探寻技术演进的足迹。
在深度学习崛起前,计算机视觉研究者如同“工匠”,依赖手工设计特征。
早期人脸检测:20世纪90年代,研究者开始尝试神经网络与统计方法:1996年Rowley等人的《基于神经网络的人脸检测》利用早期神经网络在图像金字塔上定位人脸;1997年Osuna等人引入支持向量机;2001年Viola-Jones框架通过高效特征组合实现实时人脸检测,影响深远。
特征工程巅峰:随后,特征描述符成为核心:1999年Lowe提出SIFT,实现尺度不变特征识别;2003年Sivic和Zisserman借鉴文本检索,推出视觉词袋模型;2005年Dalal和Triggs发明HOG用于行人检测,同年Grauman和Darrell提出金字塔匹配核;2006年Lazebnik等人引入空间金字塔匹配,增强空间信息保留;2008年DPM作为传统方法集大成者,将物体建模为可变形部件组合。
然而,手工特征依赖先验设计,分类器能力有限,导致速度慢、泛化性差,成为技术瓶颈。
2012年,AlexNet在ImageNet竞赛中夺冠,证明深度学习特征提取远超手工设计。但如何用于目标检测?
深度学习的崛起:AlexNet(Krizhevsky等人)通过深层CNN展现强大特征学习能力。
R-CNN:从分类到检测:2014年,Girshick等人提出R-CNN,思路直接:先用选择性搜索生成约2000个候选区域,再对每个区域进行CNN特征提取和SVM分类。
R-CNN需独立处理每个候选框,计算冗余。研究者开始探索计算复用。
2014年,何恺明团队提出SPP-Net,引入空间金字塔池化,支持任意尺寸输入,实现单次全图特征计算,大幅加速。
2015年,Girshick推出Fast R-CNN,整合RoI池化,将特征提取、分类与回归统一到端到端网络中。
但瓶颈仍在:候选框生成依赖传统选择性搜索,拖累系统速度。
Faster R-CNN的诞生:2015年,何恺明团队受LeCun早期工作启发,提出区域提议网络(RPN),通过锚点在特征图上滑动预测物体位置,实现提议、特征提取、分类与回归的全神经网络端到端处理,开启实时检测新时代。
Faster R-CNN奠定基础后,技术洪流继续奔腾:
为追求极致速度,2016年YOLO和SSD实现单次扫描全图输出,速度显著提升;2017年,何恺明团队提出Focal Loss(RetinaNet),解决单阶段检测中正负样本不平衡问题;同年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入RoI Align提升像素对齐精度。
2020年,DETR将Transformer架构引入检测,摒弃锚点与后处理,用全局注意力重构框架;2023年,SAM在大数据驱动下实现通用分割,展示视觉大模型潜力。
过去几十年,我们学到了什么?何恺明幽默总结:“撰写目标检测论文并赢得时间检验奖”。
演讲尾声,他以一张Nano-Banana生成的寓意图收束:一艘船驶向迷雾海洋。
科学探索如同驶入迷雾,没有预设地图,甚至不知终点何在。从手工特征到CNN,再到Transformer,每次飞跃都是探险者的新发现。Faster R-CNN启示我们:当旧组件成为瓶颈,可用更强大的可学习模型替代。未来十年,计算机视觉的“圣杯”或许仍在迷雾中等待揭晓。
本文由主机测评网于2026-02-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223726.html