뉴스센터

카테고리

리포트

검색

[정보통신기획평가원] 장기 비디오 이해를 위한 시각-언어 모델 기술 동향

테크포럼: 2025-07-03 19:36:50

https://www.techforum.co.kr/bbs/report/146091 URL COPY

최근 들어 인공지능(AI) 기술의 발전과 함께, 인간의 인지 능력을 모방하거나 보완하려는 시도가 영상 처리 분야에서도 활발히 이루어지고 있다. 특히, 비디오 콘텐츠의 길이가 수 분에서 수 시간에 이르는 장기 비디오(long videos)가 늘어남에 따라, 이를 효율적으로 이해하고 분석할 수 있는 기술에 대한 요구가 커지고 있다. 이에 대응하여, 시각 정보를 포함하여 자막, 오디오, 음성 등 다양한 모달리티를 통합적으로 처리하며, 시간적으로 멀리 떨어진 사건 간의 연관성을 추론할 수 있는 시각-언어 모델(Vision-Language Model: VLM)이 주목받고 있다. 본 고에서는 시각 토큰 압축, 메모리 기반 문맥 유지, 질의응답 중심 키 프레임 선택, 시간 경계 인지형 추론 등 장기 비디오 이해를 위한 주요 기술의 흐름을 정리하고, 이들 기술의 평가에 사용되는 대표적인 벤치마크 데이터셋들의 구성과 특징을 소개한다. 나아가, 향후 인간 수준의 장면 이해를 가능하게 하는 다중 모달 기반 AI 기술의 발전 방향을 전망한다.

[원문보기]

출력

SNS 공유 Twitter Facebook

테크포럼(주).

대표: 김서원

서울특별시 금천구 가산디지털1로 196, 407호 (가산동, 에이스테크노타워10차)

고객센터: 070-7169-5396

사업자등록번호: 119-86-81577

통신판매신고번호: 제2014-서울금천-0056호