2025년 7월 10일, 일론 머스크의 AI 기업 xAI가 차세대 인공지능 모델 ‘그록 4(Grok 4)’를 전격 공개했습니다. 머스크는 이 모델을 “세계에서 가장 똑똑한 AI”라고 소개하며, 기존 AI 모델들을 압도하는 성능을 자랑한다고 밝혔습니다.
압도적인 성능 지표
주요 벤치마크 결과
그록 4는 다양한 벤치마크 테스트에서 경쟁 모델들을 큰 차이로 앞섰습니다. 특히 ‘인류의 마지막 시험(Humanity’s Last Exam)’에서 25.4%의 정답률을 기록하며, 구글의 제미나이 2.5 프로(21.6%)와 오픈AI의 o3(21%)보다 높은 점수를 달성했습니다.
ARC-AGI-2 테스트에서는 16.2%의 점수를 기록하여 상업용 AI 모델 중 최고 성능을 보였으며, 이는 클로드 오퍼스 4의 거의 두 배에 해당하는 수치입니다.
독립 평가 기관 인정
독립 평가 기관 Artificial Analysis에 따르면, 그록 4는 AI 지능 지수(Intelligence Index)에서 73점을 기록하여 오픈AI o3(70점), 구글 제미나이 2.5 프로(70점), 앤트로픽 클로드 4 오퍼스(64점), 딥시크 R1(68점)을 모두 제쳤습니다.
| AI 모델 | 인류의 마지막 시험 (%) | ARC-AGI-2 (%) | AI 지능 지수 |
|---|---|---|---|
| 그록 4 | 25.4 | 16.2 | 73 |
| 제미나이 2.5 프로 | 21.6 | – | 70 |
| 오픈AI o3 | 21.0 | – | 70 |
| 클로드 오퍼스 4 | – | 8.1 | 64 |
| 딥시크 R1 | – | – | 68 |
혁신적인 기술 특징
강화학습 중심 아키텍처
그록 4는 강화학습(RL) 중심의 훈련 방식을 채택하여 기존 모델들과 차별화됩니다. 이 모델은 문제 해결 과정에서 피드백을 받고 점진적으로 성능을 개선하는 자기 오류 교정 구조를 갖추고 있습니다.
콜로서스 슈퍼컴퓨터 활용
그록 4는 xAI의 콜로서스 슈퍼컴퓨터에서 훈련되었으며, 이 시스템은 현재 20만 개 이상의 GPU를 보유하고 있습니다. 그록 2에 비해 100배, 그록 3에 비해 10배 더 많은 연산 자원과 데이터로 훈련되었습니다.
제1원칙 기반 추론
그록 4는 물리학적 사고방식을 적용해 문제를 가장 근본적인 공리로 단순화한 후 논리를 쌓아 올리는 혁신적인 추론 방식을 구현했습니다. 이는 패턴 매칭에 의존하는 다른 AI 모델과 달리 기본 원칙에서부터 추론하여 더 정확하고 논리적인 답변을 제공합니다.

다양한 기능과 응용 분야
멀티모달 기능
그록 4는 텍스트뿐만 아니라 이미지 입력을 지원하는 멀티모달 기능이 추가되었습니다. 최대 256,000 토큰의 컨텍스트 창을 지원하며, 이는 제미나이 2.5 프로(100만 토큰)보다는 짧지만 o3나 클로드 오퍼스 4(각 20만 토큰)보다는 길다고 평가됩니다.
새로운 음성 인터페이스 ‘Eve’
그록 4는 ‘Eve’라는 새로운 음성 인터페이스를 도입했습니다. 이는 풍부한 감정을 표현할 수 있는 영국식 목소리로, 실시간 대화 및 감정 표현, 저지연 응답 등 인간에 가까운 상호작용을 구현합니다.
코딩 및 개발 지원
그록 4는 코딩 분야에서도 탁월한 성능을 보여줍니다. SWE-bench에서 72-75%의 점수를 기록하며, 실제 소프트웨어 엔지니어링 작업에서 우수한 성능을 입증했습니다. 8월에는 코딩에 특화된 AI 모델이 별도로 출시될 예정입니다.
이중 모델 구조: 그록 4와 그록 4 헤비
| 모델 | 특징 | 최적화 분야 |
|---|---|---|
| 그록 4 | 빠른 응답 속도, 높은 정확도, 범용 AI 모델 | 자연어 처리, 수학적 계산, 고차원 추론 |
| 그록 4 헤비 | 멀티 에이전트 기술, 병렬 문제 해결, 집단 지능 시스템 | 복잡한 문제 해결, 도구 활용 (44.4% 점수) |
그록 4 (기본 모델)
기본 모델인 그록 4는 빠른 응답 속도와 높은 정확도를 제공하는 범용 AI 모델입니다. 자연어 처리, 수학적 계산, 고차원 추론에 최적화되어 있습니다.
그록 4 헤비 (고급 모델)
그록 4 헤비는 멀티 에이전트 기술을 활용한 고급 버전입니다. 여러 개의 AI 에이전트를 동시에 실행하여 문제를 병렬로 해결하고, 결과를 비교하여 최적의 답을 도출하는 ‘집단 지능’ 시스템을 구현했습니다. 도구를 활용한 상황에서 44.4%의 점수를 기록했습니다.
가격 정책 및 구독 모델
API 사용료
| 토큰 유형 | 가격 (100만 토큰당) |
|---|---|
| 입력 토큰 | 3달러 |
| 출력 토큰 | 15달러 |
| 캐시된 입력 토큰 | 0.75달러 |
구독 서비스
| 등급 | 가격 | 주요 기능 |
|---|---|---|
| Basic | 무료 | 제한된 기능의 그록 3 접근 |
| SuperGrok | 월 30달러/연 300달러 | 그록 4 모델, 128,000 토큰 컨텍스트 메모리, 비전 기능 |
| SuperGrok Heavy | 월 300달러/연 3,000달러 | 그록 4 헤비 모델 독점 접근, 새로운 기능 조기 접근, 전용 기술 지원 |
향후 로드맵
| 출시 예정 시기 | 출시 예정 모델/기능 |
|---|---|
| 2025년 8월 | 코딩 특화 모델 |
| 2025년 9월 | 멀티모달 에이전트 |
| 2025년 10월 | 비디오 생성 모델 |
xAI는 그록 4 이후의 발전 계획을 구체적으로 제시했습니다. 또한 100,000개 이상의 GB200 GPU를 활용한 비디오 생성 모델 개발도 진행 중입니다.
AI 시장 패러다임 변화
그록 4의 출시는 AI 시장에 새로운 경쟁 축을 만들어냈습니다. 기존의 컨텍스트 창 크기 경쟁에서 벗어나 추론 능력과 성능 효율성을 중시하는 새로운 트렌드를 제시했습니다.
경쟁사 대응
오픈AI의 GPT-5가 여름 출시를 예고한 상황에서, 그록 4의 먼저 출시는 AI 시장에서 유리한 위치를 선점할 것으로 예상됩니다. 특히 월 300달러라는 초고가 요금제는 AI 업계에서 가장 비싼 수준으로, 프리미엄 AI 서비스 시장을 개척하고 있습니다.
안전성과 윤리적 고려사항
그록 4의 출시는 그록 3가 반유대주의적 발언을 게시한 논란 직후에 이루어졌습니다. xAI는 이에 대응하여 혐오 발언 차단 조치를 강화했으며, “진실을 추구하는 AI” 개발에 중점을 두고 있다고 밝혔습니다.
앞으로 기대 되는 방향성
그록 4는 단순한 AI 모델의 업그레이드를 넘어 AI 기술의 새로운 패러다임을 제시하는 혁신적인 모델입니다. 강화학습 중심의 아키텍처, 멀티 에이전트 시스템, 그리고 제1원칙 기반 추론 등의 기술적 혁신을 통해 기존 AI 모델들과 차별화된 성능을 보여주고 있습니다.
머스크의 “학문적 질문에 관해서는 그록 4가 모든 과목에서 박사 수준을 넘어선다”는 자신감 있는 발언처럼, 그록 4는 AI 기술의 새로운 지평을 열고 있습니다. 앞으로 코딩, 멀티모달, 비디오 생성 등 다양한 분야로의 확장이 예정되어 있어, AI 업계의 게임 체인저가 될 가능성이 높습니다.
Wide AI GPT에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.