대규모 영상 콘텐츠의 효율적 검색을 위한 멀티모달 인덱싱 및 검색 시스템
VIRAL: Video Indexing and Retrieval Associated to Large-Scale Contents
박동건(학사과정), 박소연(학사과정), 최현규(KISTI), 이창하(GMDSOFT), 홍참길(지도교수)
본 논문은 대규모 영상 아카이브에서 특정 정보를 효율적으로 탐색하기 위한 멀티모달 비디오 인덱싱 프레임워크인 VIRAL(Video Indexing and Retrieval Associated to Large-Scale Contents)을 제안한다. 제안된 시스템은 음성-텍스트 변환(Speech-to-Text, STT) 기술과 비전-언어 모델(Vision-Language Model, VLM)을 결합하여, 영상 내 음성 및 시각 정보를 의미 기반 텍스트로 구조화하고 이를 시점 정보와 함께 인덱싱한다. 특히, 본 프레임워크는 북한 및 남북관계 관련 방송 영상 300편(총 174시간 분량)을 대상으로 실험을 수행하였다. 그 결과, 검색 정확도를 나타내는 OTR@10(On-Topic Rate at Top 10)이 95.7%에 도달하였고, 평균 검색 응답 시간은 0.35초로 측정되어 실시간 검색 서비스 수준의 성능을 입증하였다. 검색 전략 측면에서, 키워드 기반 BM25 기법과 문장 임베딩 기반 벡터 검색을 결합한 RRF(Reciprocal Rank Fusion) 방식을 도입하여, 정확도와 의미적 유사성 간 균형 있는 검색 결과를 도출하였다. VIRAL은 기존 문서 기반 검색 시스템이 갖는 한계를 극복하고, 음성 및 시각 정보가 혼합된 복잡한 멀티모달 콘텐츠를 효과적으로 구조화하고 검색할 수 있는 실질적 해결책을 제시하며, 국제관계 및 방송 분석과 같은 실제 도메인에 적용 가능한 확장성을 보여주었다 .

이 논문 뿐 아니라, AVSS2025에 전산전자공학과 대학원생이 참여한 논문 3편도 Accept되었다. [1] [2]
----
Multimodal Indexing and Retrieval System for Efficient Search of Large-Scale Video Content
Paper Title: VIRAL: Video Indexing and Retrieval Associated to Large-Scale Contents
Authors: Donggeon Park (Undergraduate), Soyeon Park (Undergraduate), Hyunkyu Choi (KISTI), Changha Lee (GMDSOFT), Charmgil Hong (Advisor)
This paper proposes VIRAL (Video Indexing and Retrieval Associated to Large-Scale Contents), a multimodal video indexing framework designed for the efficient exploration of specific information within large-scale video archives. The system integrates Speech-to-Text (STT) technology and Vision-Language Models (VLMs) to convert spoken and visual content in videos into semantically structured textual data, which is then indexed along with temporal metadata.
The framework was evaluated on a dataset of 300 broadcast videos (totaling 174 hours) related to North Korea and inter-Korean relations. The system achieved an On-Topic Rate at Top 10 (OTR@10) of 95.7%, indicating high retrieval accuracy, and demonstrated a mean response time of 0.35 seconds, which meets the requirements for real-time search services.
From a retrieval strategy perspective, the system adopts Reciprocal Rank Fusion (RRF), which combines keyword-based BM25 scoring with sentence embedding-based vector retrieval, striking a balance between keyword precision and semantic relevance.
VIRAL overcomes the limitations of traditional document-based search systems by effectively structuring and retrieving complex multimodal content that includes both audio and visual information. It presents a practical solution for domains such as international relations and broadcast content analysis, demonstrating strong potential for real-world applications.
대규모 영상 콘텐츠의 효율적 검색을 위한 멀티모달 인덱싱 및 검색 시스템
VIRAL: Video Indexing and Retrieval Associated to Large-Scale Contents
박동건(학사과정), 박소연(학사과정), 최현규(KISTI), 이창하(GMDSOFT), 홍참길(지도교수)
본 논문은 대규모 영상 아카이브에서 특정 정보를 효율적으로 탐색하기 위한 멀티모달 비디오 인덱싱 프레임워크인 VIRAL(Video Indexing and Retrieval Associated to Large-Scale Contents)을 제안한다. 제안된 시스템은 음성-텍스트 변환(Speech-to-Text, STT) 기술과 비전-언어 모델(Vision-Language Model, VLM)을 결합하여, 영상 내 음성 및 시각 정보를 의미 기반 텍스트로 구조화하고 이를 시점 정보와 함께 인덱싱한다. 특히, 본 프레임워크는 북한 및 남북관계 관련 방송 영상 300편(총 174시간 분량)을 대상으로 실험을 수행하였다. 그 결과, 검색 정확도를 나타내는 OTR@10(On-Topic Rate at Top 10)이 95.7%에 도달하였고, 평균 검색 응답 시간은 0.35초로 측정되어 실시간 검색 서비스 수준의 성능을 입증하였다. 검색 전략 측면에서, 키워드 기반 BM25 기법과 문장 임베딩 기반 벡터 검색을 결합한 RRF(Reciprocal Rank Fusion) 방식을 도입하여, 정확도와 의미적 유사성 간 균형 있는 검색 결과를 도출하였다. VIRAL은 기존 문서 기반 검색 시스템이 갖는 한계를 극복하고, 음성 및 시각 정보가 혼합된 복잡한 멀티모달 콘텐츠를 효과적으로 구조화하고 검색할 수 있는 실질적 해결책을 제시하며, 국제관계 및 방송 분석과 같은 실제 도메인에 적용 가능한 확장성을 보여주었다 .
이 논문 뿐 아니라, AVSS2025에 전산전자공학과 대학원생이 참여한 논문 3편도 Accept되었다. [1] [2]
----
Multimodal Indexing and Retrieval System for Efficient Search of Large-Scale Video Content
Paper Title: VIRAL: Video Indexing and Retrieval Associated to Large-Scale Contents
Authors: Donggeon Park (Undergraduate), Soyeon Park (Undergraduate), Hyunkyu Choi (KISTI), Changha Lee (GMDSOFT), Charmgil Hong (Advisor)
This paper proposes VIRAL (Video Indexing and Retrieval Associated to Large-Scale Contents), a multimodal video indexing framework designed for the efficient exploration of specific information within large-scale video archives. The system integrates Speech-to-Text (STT) technology and Vision-Language Models (VLMs) to convert spoken and visual content in videos into semantically structured textual data, which is then indexed along with temporal metadata.
The framework was evaluated on a dataset of 300 broadcast videos (totaling 174 hours) related to North Korea and inter-Korean relations. The system achieved an On-Topic Rate at Top 10 (OTR@10) of 95.7%, indicating high retrieval accuracy, and demonstrated a mean response time of 0.35 seconds, which meets the requirements for real-time search services.
From a retrieval strategy perspective, the system adopts Reciprocal Rank Fusion (RRF), which combines keyword-based BM25 scoring with sentence embedding-based vector retrieval, striking a balance between keyword precision and semantic relevance.
VIRAL overcomes the limitations of traditional document-based search systems by effectively structuring and retrieving complex multimodal content that includes both audio and visual information. It presents a practical solution for domains such as international relations and broadcast content analysis, demonstrating strong potential for real-world applications.