News

연구/프로젝트 (Research)석사과정 김하림, 문지현 학생 우수 학술대회 논문 성과 | Top Conference Paper Achievements by Master's Students Harim Kim and Jihyun Moon

Views 479


Diff3M: 흉부 X-ray 이상 탐지를 위한 EHR 기반 디퓨전 모델


논문명: Harnessing EHRs for Diffusion-based Anomaly Detection on Chest X-rays

저자: 김하림(석사과정), Yuhan Wang(UCSC 박사과정), 안민규(전산전자공학부), 최희열(전산전자공학부), Yuyin Zhou(UCSC 공동연구교수), 홍참길(지도교수)


본 논문은 흉부 X-ray 영상과 환자의 전자건강기록(Electronic Health Records, EHR)을 효과적으로 융합하여 병변을 탐지하는 차세대 인공지능 모델인 Diff3M을 제안한다. 기존 디퓨전 기반 이상 탐지 기법은 영상 정보에만 의존하여 해부학적 변이를 병리적 이상과 구분하는 데 한계가 있었다. 이에 본 연구는 영상과 임상 정보를 통합하는 새로운 멀티모달 프레임워크를 통해 정확한 이상 탐지를 실현하고자 하였다. 핵심적으로, 본 연구는 이미지-EHR Cross Attention 모듈을 통해 영상과 구조화된 EHR 데이터를 의미적으로 연계하여 보다 정밀한 이상 탐지가 가능하도록 하였으며, 정적 체커보드 마스킹 전략(Pixel-level Checkerboard Masking)을 적용하여 다양한 이상 형태에 대한 재구성을 개선하였다. CheXpert 및 MIMIC-CXR/IV 데이터셋을 기반으로 한 실험에서, 제안된 Diff3M은 기존의 대표적 이상 탐지 모델(PatchCore, RD4AD, MambaAD, DiAD)을 모두 상회하는 성능을 달성하였으며, 특히 AUROC 기준으로 최대 5.5%p 향상을 보였다.

과학기술정보통신부와 정보통신기획평가원(IITP)의 디지털 분야 글로벌 연구지원 프로그램의 지원을 받아 수행된 본 연구는 University of California, Santa Cruz의 Yuyin Zhou 교수 연구팀과의 공동연구로 진행되었으며, 의료 영상 분야 최고 권위의 국제학술대회인 MICCAI(Medical Image Computing and Computer Assisted Intervention) 2025에서 상위 9% 이내 우수 논문으로 선정되어 우선 승인되었다는 점에서 높은 연구적 가치를 지닌다.


7ec503cf1109f.png


Diff3M: An EHR-based Diffusion Model for Anomaly Detection in Chest X-rays


Paper Title: Harnessing EHRs for Diffusion-based Anomaly Detection on Chest X-rays
Authors: Harim Kim (Master’s Program), Yuhan Wang (PhD Student, UCSC), Minkyu Ahn (School of Electrical Engineering and Computer Science), Heeyoul Choi (School of Electrical Engineering and Computer Science), Yuyin Zhou (Collaborating Professor, UCSC), Charmgill Hong (Advisor)


This paper introduces Diff3M, a next-generation AI model that effectively integrates chest X-ray images with patients’ electronic health records (EHRs) for enhanced lesion detection. Traditional diffusion-based anomaly detection methods have largely relied on image-only inputs, making it challenging to distinguish between anatomical variations and pathological abnormalities.

To address this, the authors propose a novel multimodal framework that combines imaging and clinical data for more accurate anomaly detection. At the core of the model is an Image-EHR Cross-Attention Module, which semantically links structured EHR data with visual features, enabling more precise analysis. Additionally, a Pixel-level Checkerboard Masking strategy is introduced to improve reconstruction across diverse abnormality types.

Experiments conducted on benchmark datasets including CheXpert and MIMIC-CXR/IV demonstrate that Diff3M outperforms state-of-the-art anomaly detection models (PatchCore, RD4AD, MambaAD, and DiAD), achieving up to 5.5 percentage points improvement in AUROC.

This research was supported by the Ministry of Science and ICT and the Institute of Information & Communications Technology Planning & Evaluation (IITP) through the Global R&D Program in Digital Technologies. It is a result of international collaboration with Professor Yuyin Zhou’s lab at the University of California, Santa Cruz. The paper was selected as a top 9% paper and received early acceptance at MICCAI 2025 (Medical Image Computing and Computer Assisted Intervention), one of the most prestigious conferences in the field of medical imaging.





악성 흑색종 진단을 위한 RAG 기반 멀티모달 임상결정 지원 프레임워크 


논문명: Multimodal Clinical Decision Support for Melanoma Diagnosis Using Retrieval-Augmented Generation and Vision-Language Models

저자: 문지현(석사과정), 홍참길(지도교수)


본 논문은 피부암의 일종인 악성 흑색종(malignant melanoma)의 진단을 지원하기 위해, 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기반의 비전-언어 모델(Vision-Language Model, VLM)을 활용한 멀티모달 임상결정 지원 프레임워크를 제안한다. 본 프레임워크는 환자의 메타데이터와 피부확대경(dermoscopic) 이미지를 각각 텍스트 및 이미지 인코더를 통해 임베딩하고, 이를 통합한 벡터를 바탕으로 임상적으로 유사한 사례들을 검색한다. 검색된 사례들은 프롬프트 내에 삽입되어 VLM이 진단을 수행하도록 한다. 제안된 방식은 이미지 기반, 텍스트 기반, 단순 멀티모달 임베딩 모델, 그리고 제로샷(zero-shot) VLM과 비교하여 가장 높은 F1-score인 0.6864를 달성하며, 민감도와 정밀도 측면에서도 우수한 성능을 보였다. 특히, 환자 메타데이터를 HTML, Markdown, 속성-값 쌍(Attribute-Value pair), 자연어 문장(Sentence) 형식으로 직렬화하고 이들 표현 방식 간의 성능 차이를 비교함으로써 프롬프트 설계에 대한 통찰을 제공하였다. 본 연구는 임상적으로 유의미한 유사 사례 기반 프롬프트를 통해 VLM이 이미지와 환자 정보를 종합적으로 해석하고 진단에 활용될 수 있음을 실증하였으며, RAG 전략이 도메인 특화 학습 없이도 의료 분야에서 실질적인 성능 향상을 이끌어낼 수 있음을 보여주었다.


4c2b8d6d78aa4.png


Multimodal Clinical Decision Support Framework for Malignant Melanoma Diagnosis Based on Retrieval-Augmented Generation


Paper Title: Multimodal Clinical Decision Support for Melanoma Diagnosis Using Retrieval-Augmented Generation and Vision-Language Models
 Authors: Jihyun Moon (Master’s Program), Charmgil Hong (Advisor)


This paper proposes a multimodal clinical decision support framework for diagnosing malignant melanoma, a type of skin cancer, using Retrieval-Augmented Generation (RAG) and Vision-Language Models (VLMs). The proposed framework embeds patient metadata and dermoscopic images using separate text and image encoders. These embeddings are then integrated into a unified vector to retrieve clinically similar cases. The retrieved cases are inserted into the prompt, allowing the VLM to perform diagnosis.

Compared to image-based, text-based, simple multimodal embedding models, and zero-shot VLMs, the proposed method achieved the highest F1-score of 0.6864, and also outperformed others in terms of sensitivity and precision. Notably, the study serialized patient metadata into various formats—including HTML, Markdown, attribute-value pairs, and natural language sentences—and compared the performance across these representations, providing valuable insights into prompt design.

This research empirically demonstrates that VLMs can comprehensively interpret and utilize both images and patient information for diagnosis when guided by clinically meaningful, example-based prompts. Moreover, it shows that the RAG strategy can lead to practical performance improvements in the medical domain without domain-specific fine-tuning.

Phone. 054-260-1414, 1378    Fax. 054-260-1976
E-mail. csee@handong.edu
37554 경북 포항시 북구 흥해읍 한동로 558
한동대학교 뉴턴홀 309호 AI컴퓨터전자공학부