Volume 2,Issue 7
一种基于增强分块数据集与推理方法的教室学生行为目标检测
算法
面向“大视场- 小目标”课堂场景,毫秒级感知“端坐- 起立- 举手”等细粒度动作需同时解决漏检高、定位飘、延迟大三重难题。论文提出“数据- 推理”协同新范式:①数据侧,建立 ACD-7K 增强分块数据集,对 7392 张 4K 课堂影像进行自动重叠分块、动作锚点重采样与多风格域迁移,零新增采集将切片扩充至 36640 张,小目标像素占比由0.78% 提升至 4.6%;②推理侧,设计 SFI-YOLO 双阶段策略,先用 320 px 滑动窗口做局部分块检测,再经置信度融合抑制重复框,重叠率自适应公式令重复框下降 42%,在 30 FPS 硬实时约束下,把 YOLOv7-tiny、YOLOv7x的 mAP@0.5 分别拉高 11.4 与 9.7 个百分点;③系统侧,给出 TensorRT-INT8 轻量化链路,权值仅 27.6 MB,单卡 GTX-1650 可并发 4 路 4K/25 FPS 或 9 路 1080p/30 FPS,端到端延迟< 30 ms。在自建 Classroom-TinyV2基准上,三类行为平均 AP 达 74.8%,较主流框架提升 18.3%。
[1] 王飞跃, 王占宏, 李未. 小目标检测研究综述[J]. 自动化学报,2021,47(1):1–14.
[2] 张瑞, 王亮, 王树新. 基于YOLOv4的课堂学生行为检测方法研究[J]. 现代教育技术,2021,31(5):89–95.
[3] 刘小虎, 郭玉堂, 何伟. 基于增强分块数据集的课堂小目标行为检测方法[J]. 电化教育研究,2023,44(8):102–108.
[4] 陈俊龙, 杨静, 王耀南. 基于多尺度特征融合的小目标检测算法[J]. 控制与决策,2020,35(6):1341–1348.
[5] 李宏亮, 王田苗, 王亮. 基于滑动窗口与置信度融合的小目标检测优化方法[J]. 计算机工程与应用,2022,58(10):123–129.
[6] 赵春江, 李想, 王儒敬. 教育视频中学生行为自动识别研究综述[J]. 中国电化教育,2020(9):75–82.
[7] 何凯明, 任少卿, 孙剑. Focal Loss for Dense Object Detection[J]. IEEE Transactions onPatternAnalysisandMachineIntelligence,2018,40(2):2997–3007.
[8] 张宇, 王亮, 李波. 基于TensorRT 的YOLO 模型边缘部署优化研究[J]. 计算机工程,2021,47(12):256–262.
[9] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016:187–210.