한컴, 30년 축적 기술력으로 PDF 데이터 추출 엔진 오픈소스 공개

2025.09.17
한컴, 30년 축적 기술력으로 PDF 데이터 추출 엔진 오픈소스 공개

한글과컴퓨터가 인공지능 학습 과정에서 지속적으로 제기되어온 PDF 문서 데이터 처리 병목을 해결하는 핵심 기술을 글로벌 오픈소스로 전격 공개했다. 35년간 쌓아온 전자문서 처리 노하우를 바탕으로 개발한 '오픈데이터로더 PDF'는 PDF 내부의 텍스트, 도표, 이미지, 레이아웃 구조를 높은 정확성과 신속한 처리 속도로 추출해 JSON, 마크다운, HTML 등 AI 학습에 최적화된 정형 데이터로 변환하는 엔진이다.

PDF 문서는 전세계적으로 AI 모델 훈련에 가장 광범위하게 활용되는 포맷이다. 최근 허깅페이스가 공개한 FinePDFs 데이터셋처럼 4억7천500만 건 규모의 대용량 PDF 기반 학습 자료가 등장하면서 기업들의 관심도 급증하고 있다. 하지만 내부 구조가 복잡해 데이터 추출이 까다로워 'PDF 데이터 감옥'이라는 표현이 나올 정도로 AI 개발의 걸림돌이 되어왔다.

이번 프로젝트는 한컴이 지난 7월 PDF 기술 전문업체 듀얼랩과 맺은 협력 협약의 첫 번째 성과물이다. 양 기업은 오픈소스 기반 PDF 데이터로더를 함께 개발하며 AI 생태계 확장을 추진하고 있으며, 이번 기술 공개로 본격적인 확산에 돌입했다.

성능 측면에서도 주목할 만한 결과를 보였다. 공식 홈페이지에 게시된 벤치마크 테스트 결과에 따르면, 인간의 읽기 순서를 측정하는 NID 지표에서 기존 경쟁 오픈소스 기술 대비 85%라는 뛰어난 수치를 달성했다. 또한 금융기관이나 공공부문처럼 민감한 정보를 다루는 환경에서도 네트워크 없이 완전한 오프라인 모드로 구동되어 데이터 유출이나 외부 업로드로 인한 보안 위험을 원천 차단한다.

특히 최근 AI 업계의 핵심 이슈로 부상한 데이터 안전성 문제에도 선제적으로 대응했다. 프롬프트 인젝션과 같은 악성 콘텐츠 삽입을 자동으로 탐지하고 차단하는 기능을 탑재해 안정적인 AI 모델 학습 환경을 구축할 수 있도록 했다.

한컴은 이번 오픈소스 공개를 단순한 기술 공유를 넘어 AI 생태계 전체의 오픈소스 확산과 기술 향상을 위한 전략으로 추진하고 있다. 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동성을 강화하고, 깃허브를 통한 글로벌 개발자 커뮤니티와의 협업을 지속할 계획이다.

정지환 한컴 CTO는 "AI 전환 시대에서 오픈소스는 선택 사항이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략"이라며 "전세계 개발자들과의 협력을 통해 PDF 데이터 추출 기술을 한층 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다"고 밝혔다. 그는 또한 "연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 개선해나갈 예정"이라고 덧붙였다.

한편 한컴의 국산 문서 포맷인 HWP와 HWPX에 대한 AI 데이터 추출 능력 부족 논란도 재조명되고 있다. 하지만 업계에서는 해당 포맷들이 국제 표준과 비교해 손색없는 데이터 추출 성능을 보여주며, 오히려 데이터 주권 수호 차원에서 중요한 자산이라는 평가가 나오고 있다. 정부가 최근 선정한 독자 AI 파운데이션 모델 개발 프로젝트에서 한컴이 LG AI연구원 컨소시엄에 참여하면서 30여년간 축적된 한국어 문서 기술을 AI 시대에도 활용할 수 있는 발판을 마련했다.