视频动作识别研究提出JSS-CLIP框架,通过轻量级侧网络与隐式对齐模块平衡效率与时空建模性能,在SomethingSomething V2、Kinetics-400、UCF101数据集上验证有效性。 在计算机视觉领域,视频理解是一项至关重要的研究课题,其复杂性与挑战性不言而喻。视频理解任务 ...