중국 딥시크, AI 모델 R1 개발비용 단 4억원 공개…오픈AI 대비 300분의 1

2025.09.19
중국 딥시크, AI 모델 R1 개발비용 단 4억원 공개…오픈AI 대비 300분의 1

중국의 AI 기업 딥시크가 화제를 모은 생성형 인공지능 모델 R1의 개발 과정과 비용을 최초로 상세하게 공개했다. 17일 국제학술지 네이처에 게재된 동료심사 논문을 통해 딥시크는 R1 모델 학습에 소요된 비용이 29만4천달러, 한화 약 4억원에 불과했다고 발표했다.

딥시크 창립자 량원펑이 공저자로 참여한 이번 연구에서는 R1이 초기 단계를 거친 후 엔비디아 H800 칩 512개를 활용해 800시간에 걸쳐 학습됐다고 상세히 기술했다. 이는 챗GPT 개발업체 오픈AI의 샘 올트먼 CEO가 2023년 언급한 "1억달러를 훨씬 초과하는" 기본 모델 개발비와 비교하면 약 300분의 1 수준이다. R1의 기반이 되는 기초 대형언어모델 제작에 투입된 600만달러를 포함하더라도 상당히 경제적인 개발 과정이었다는 평가다.

논문의 부가 자료에서 딥시크는 중국 내 수출이 제한된 엔비디아 A100 칩을 보유하고 있으며, 개발 준비 과정에서 이를 활용했다고 처음으로 시인했다. MIT 테크놀로지 리뷰 등의 이전 보도에 따르면 딥시크가 비축한 A100 칩은 1만개에서 5만개 사이로 추정된다. 하지만 실제 R1 학습 단계에서는 중국이 구매 가능한 H800 칩만을 사용했다고 강조했다.

딥시크 R1의 핵심 혁신은 순수 강화학습 방식의 도입이다. 기존 대형언어모델들이 인간이 제작한 학습 데이터에 의존하는 지도학습을 채택한 것과 달리, R1은 문제 해결 시 보상을 제공받고 오답 시 페널티를 받는 구조에서 자율적으로 진화하도록 설계됐다. 연구팀은 지도학습이 확장성을 제약하고 인간의 편견을 모델에 주입할 위험이 있으며, 인간의 인지 능력을 넘어서는 추론 경로 탐색을 방해할 가능성이 있다고 판단했다.

이러한 접근법을 통해 R1은 인간의 명시적 지도 없이도 고도의 문제 해결 전략을 스스로 개발해냈다. 실험에서 R1은 미국 중고등학교 및 수학 올림피아드 수준의 문제들로 구성된 평가에서 79.8%의 정확성을 달성했고, 국제 프로그래밍 경연대회나 대학원 수준의 과학 문제에서도 뛰어난 결과를 보여줬다.

특히 주목할 점은 R1이 자기검토와 검증, 전략 수정 등 고차원적 사고 패턴을 독립적으로 학습했다는 것이다. 모델은 답안을 재검토하면서 "잠깐, 다른 방법을 시도해보자"와 같은 자체적인 중간 표시를 삽입하는 행동을 보였다. 이는 보상 최대화 과정에서 자연스럽게 발현된 현상으로 분석됐다.

하지만 이 방식에도 한계가 존재한다. 중국어와 영어를 혼재해서 사용하거나 추론 과정을 1만 단어 이상으로 과도하게 늘리는 경우가 발생했다. 또한 강화학습은 수학이나 코딩처럼 명확한 정답이 있는 영역에서는 효과적이지만, 주관적이거나 모호한 문제에는 적용이 어렵다는 제약이 확인됐다.

이런 문제점을 해결하기 위해 연구진은 강화학습과 감독학습을 교대로 적용하는 다단계 훈련 방법론을 개발했다. 강화학습으로 추론 역량을 높이면서도 인간이 작성한 데이터를 부분적으로 활용해 응답의 복잡도를 조절한 것이다. 그 결과 수학과 프로그래밍뿐 아니라 사실 검증 문제와 일반적인 언어 이해 영역에서도 최고 수준의 성능을 구현했다.

중국 관영 신화통신은 R1이 AI 업계에서 최초로 동료심사를 거친 대형언어모델로 부상했다고 평가했다. 올해 1월 딥시크의 등장은 '딥시크 쇼크'로 불리며 엔비디아를 비롯한 미국 기술주들의 급락을 촉발했던 바 있다. 이번 네이처 논문 발표로 딥시크의 혁신적 개발 방식이 구체적으로 검증받게 되면서, AI 개발 패러다임의 변화에 대한 관심이 더욱 높아질 전망이다.