최근 들어 인공지능(AI) 기술의 발전과 함께, 인간의 인지 능력을 모방하거나 보완하려는 시도가 영상 처리 분야에서도 활발히 이루어지고 있다. 특히, 비디오 콘텐츠의 길이가 수 분에서 수 시간에 이르는 장기 비디오(long videos)가 늘어남에 따라, 이를 효율적으로 이해하고 분석할 수 있는 기술에 대한 요구가 커지고 있다. 이에 대응하여, 시각 정보를 포함하여 자막, 오디오, 음성 등 다양한 모달리티를 통합적으로 처리하며, 시간적으로 멀리 떨어진 사건 간의 연관성을 추론할 수 있는 시각-언어 모델(Vision-Language Model: VLM)이 주목받고 있다. 본 고에서는 시각 토큰 압축, 메모리 기반 문맥 유지, 질의응답 중심 키 프레임 선택, 시간 경계 인지형 추론 등 장기 비디오 이해를 위한 주요 기술의 흐름을 정리하고, 이들 기술의 평가에 사용되는 대표적인 벤치마크 데이터셋들의 구성과 특징을 소개한다. 나아가, 향후 인간 수준의 장면 이해를 가능하게 하는 다중 모달 기반 AI 기술의 발전 방향을 전망한다.