홈›AI Inference

AI Inference
AI 추론 프레임워크

주요 AI 추론 프레임워크를 고가용성 아키텍처로 구축합니다.
CoreLab Cluster로 24/7 중단 없는 AI 서비스 운영을 실현합니다.

지원 프레임워크

PagedAttention 기반 고속 LLM 추론 엔진.
높은 throughput과 메모리 효율로 대규모 추론 워크로드에 최적화. Ray Cluster로 다중 노드 구성이 가능합니다.

RadixAttention 기반 고효율 LLM 서버.
프롬프트 캐싱과 동적 스케줄링으로 반복적 추론 성능을 극대화. Ray Cluster로 다중 노드 구성이 가능합니다.

CPU/GPU 혼합 추론을 지원하는 경량 LLM 라이브러리.
GPU 없는 환경에서도 양자화 모델을 효율적으로 실행. 병렬 실행으로 빠른 추론이 가능합니다.(소규모 워크로드 환경 추천)

로컬 LLM 실행을 단순화하는 오픈소스 플랫폼.
모델 다운로드, 실행, API 제공을 원클릭으로 처리합니다.(소규모 워크로드 환경 추천)

OpenAI/Anthropic 등 다양한 LLM API를 단일 인터페이스로 통합.
다중 모델 라우팅, 요금 최적화, 분산 처리, CoreLab과 연동해 API 레벨 HA를 구축합니다.

Master 노드	추론 서버 실행 (vLLM / sglang 등)
Worker 노드	동일 모델 로딩 대기 · 상태 실시간 동기화
HA 구성	Master Node 이중화, Redis 이중화(GCS 서비스 동기화) - 물리, 가상머신 가능
모델 동기화	공유 스토리지 또는 실시간 복제로 모델 파일 동기화
모니터링	CoreLab 웹 콘솔 + 추론 API Health Check 연동

고객 상담용 LLM 챗봇을 HA 구성으로 24/7 운영.
서버 장애 시 자동 전환으로 서비스 중단 없이 운영합니다.

대용량 문서 RAG 파이프라인의 추론 서버를 이중화.
배치 작업 중 서버 장애 시 Standby에서 즉시 복구합니다.