그럼AI 소개

연구 논문

2025년 5월 4일

Article on 04 MAY 2025

다중 AI 모델의 의약품 답변 정확도 비교 평가

Accuracy Comparison Evaluation of Multiple AI Models for Pharmaceutical Responses

저자:Plaad inc.

개요

본 연구는 의약품 관련 질문에 대한 다양한 AI 모델의 답변 정확도를 비교 평가했습니다. 그럼AI는 97%의 정확도를 달성하여 다른 범용 AI 모델(ChatGPT 73%, Claude 69%, Gemini 68%)을 크게 상회했습니다.

연구 배경

AI 기술의 발전으로 다양한 분야에서 AI 어시스턴트가 활용되고 있습니다. 특히 의료 및 건강 분야에서의 AI 활용은 사용자에게 신속하고 정확한 정보를 제공할 수 있는 잠재력을 가지고 있습니다. 그러나 의약품 정보의 특성상 높은 정확도가 요구되며, 잘못된 정보는 심각한 건강 문제를 야기할 수 있습니다.


본 연구에서는 의약품 관련 질문에 대한 여러 AI 모델의 답변 정확도를 객관적으로 비교하고자 합니다.

연구 방법

1. 평가 대상 AI 모델

그럼AI (건강상담 전문 모델)
ChatGPT-4o (OpenAI)
Claude 3.5 Sonnet (Anthropic)
Gemini 1.5 Pro (Google)

2. 평가 데이터셋

대한약사회에서 제공한 100개 의약품에 대한 표준 질문과 답변을 사용했습니다. 각 의약품에 대해 다음 항목을 평가했습니다:


효능/효과 정확성
용법/용량 정확성
주의사항 및 부작용 정보
상호작용 정보

3. 평가 기준

각 답변은 약사 전문가 패널(5인)에 의해 다음 기준으로 평가되었습니다:


정확(Correct): 표준 답변과 일치하거나 의학적으로 동등한 정보 제공
부분 정확(Partial): 핵심 정보는 맞으나 일부 누락 또는 부정확
오류(Error): 잘못된 정보 또는 위험한 조언 포함

4. 실험 환경

모든 AI 모델은 동일한 프롬프트 형식으로 질문을 받았으며, 답변 생성 시 temperature 설정은 0으로 고정하여 일관성을 확보했습니다. 각 질문은 3회 반복 수행하여 평균값을 사용했습니다.

연구 결과

그럼AI는 100개 의약품 질문 중 97개에 대해 정확한 답변을 제공했습니다. 각 모델별 정확도는 다음과 같습니다:

모델정확부분 정확오류정확도
그럼AI972197%
ChatGPT-4o7318973%
Claude 3.569211069%
Gemini 1.568191368%
모델별 정확도 비교 차트
모델별 정확도 비교 차트

결과 분석

1. 그럼AI의 높은 정확도 요인

그럼AI가 높은 정확도를 보인 주요 요인은 다음과 같습니다:


대한약사회 공인 의약품 데이터베이스 직접 연동
건강 도메인 특화 파인튜닝
실시간 약물 상호작용 검증 시스템
RAG(Retrieval-Augmented Generation) 기반 정확도 향상

2. 범용 AI 모델의 한계

범용 AI 모델들이 낮은 정확도를 보인 원인:


학습 데이터의 시점 차이로 인한 최신 정보 부재
의약품 특화 지식의 부족
할루시네이션(Hallucination) 현상 발생
한국 의약품 정보에 대한 학습 부족

3. 오류 유형 분석

범용 AI 모델에서 발견된 주요 오류 유형:


용량 정보 오류 (42%)
상호작용 누락 (28%)
부작용 과소/과대 표현 (18%)
적응증 혼동 (12%)

논의

본 연구 결과는 의료 정보 분야에서 도메인 특화 AI의 중요성을 보여줍니다. 범용 AI 모델은 다양한 분야에서 유용하게 활용될 수 있지만, 의약품과 같이 정확성이 중요한 분야에서는 전문화된 AI 솔루션이 필요합니다.


특히 한국 의약품 정보의 경우, 국내 규제 환경과 처방 패턴의 특수성을 반영한 데이터로 학습된 모델이 더 높은 정확도를 보일 수 있습니다.


그럼AI의 높은 정확도는 신뢰할 수 있는 데이터 소스와의 연동, 도메인 전문가의 지속적인 검증, 그리고 RAG 기술의 효과적인 활용에 기인합니다.

연구 한계

본 연구의 한계점은 다음과 같습니다:


평가 대상이 100개 의약품으로 제한됨
복잡한 다중 약물 상호작용 시나리오 미포함
특정 시점의 AI 모델 버전으로 평가 수행
사용자 질문 패턴의 다양성 제한

향후 연구에서는 더 광범위한 의약품과 복잡한 시나리오를 포함한 평가가 필요합니다.

결론

건강 관련 질문에 특화된 AI 모델이 범용 AI 대비 현저히 높은 정확도를 보여줌을 확인했습니다.


그럼AI는 97%의 정확도로 의약품 정보를 제공하여, 범용 AI 모델(68-73%) 대비 24-29%p 높은 성능을 달성했습니다. 이는 의료 정보 분야에서 도메인 특화 AI의 필요성과 효과성을 입증합니다.


사용자들이 의약품 관련 정보를 검색할 때, 범용 AI 보다는 검증된 의료 데이터를 기반으로 하는 특화 AI 서비스를 이용하는 것이 안전하고 정확한 정보를 얻는 데 도움이 될 것입니다.

참고문헌

1.대한약사회. (2024). 의약품 정보 표준 가이드라인.
2.Kim, J. et al. (2024). Evaluation of AI Chatbots in Healthcare. Journal of Medical Internet Research.
3.OpenAI. (2024). GPT-4 Technical Report.
4.Anthropic. (2024). Claude 3 Model Card.
5.Google DeepMind. (2024). Gemini: A Family of Highly Capable Multimodal Models.

본 연구는 Plaad inc.에서 수행되었습니다.

2025년 5월 4일