随着技术的不断进步,研究团队希望 HourVideo 能够推动开发出具备更强视觉理解能力的多模态模型,使其能够像人类一样处理长时间的视觉刺激,并在例如增强现实助手、具身智能体、互动视频平台等应用场景中发挥更大作用。