반응형
snowman95
코딩수련장
snowman95
전체 방문자
오늘
어제
  • 분류 전체보기 (240)
    • 개발자 글 수집 (8)
    • 앱테크 (3)
    • 옵시디언 (5)
    • 드라마, 영화 (1)
    • 개발자 이야기 (25)
    • 프로젝트 (11)
      • 프로젝트 방법론 (7)
      • 프로젝트 기록 (3)
      • Github (1)
    • 개발 지식 (0)
      • 디자인 패턴 (0)
    • 프론트엔드 개발 (98)
      • 테크트리 (2)
      • React.js (19)
      • ReactNative (2)
      • Next.js (6)
      • GraphQL (6)
      • 패키지 매니저 (2)
      • 라이브러리 (3)
      • 상태관리 라이브러리 (4)
      • Web 지식 (3)
      • HTML CSS (26)
      • Javascript (16)
      • 도구 (Tool) (3)
      • 성능 최적화 (1)
      • 디자인시스템 (0)
    • Python (53)
      • 모음집 (1)
      • 문법 (12)
      • 라이브러리 (15)
      • 알고리즘 (10)
      • 백준 문제풀이 (9)
      • 코딩테스트 (2)
      • 도구 (Tool) (3)
    • C++ (20)
      • 알고리즘 (6)
      • 삼성SW기출 (6)
      • 삼성 A형 (6)
    • 데이터사이언스 (1)
    • 인프라 (9)
      • 하드웨어 지식 (4)
      • Ansible (2)
      • Database (2)
      • 쉘스크립트 (1)
    • 주식 (0)
    • 취업 준비 (4)
      • 취업 이야기 (0)

블로그 메뉴

  • 홈
  • 태그

공지사항

인기 글

태그

  • 백준
  • C++
  • 개발자취업시장
  • OpenClaw
  • 클로드코드
  • 언어
  • claudecode
  • Next.js #graphql #tailwind.css
  • 개발자이직회고
  • 오블완
  • 세차장테스트
  • 삼성SDS
  • 티스토리챌린지
  • 삼성SW역량테스트
  • 면접
  • A형
  • 오픈클로
  • 알고리즘
  • 25년도채용시장
  • AI

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
snowman95

코딩수련장

[AI] 세차장이 50m 떨어져 있다면 걸어갈까, 운전할까? (세차장 테스트)
개발자 글 수집

[AI] 세차장이 50m 떨어져 있다면 걸어갈까, 운전할까? (세차장 테스트)

2026. 2. 27. 23:44
728x90
반응형

세차장 테스트에 대해 아시나요?

굉장히 재미있는 실험입니다.

53개의 주요 AI 모델을 대상으로 테스트한 결과, 대부분이 기초적 추론에 실패했습니다.

정답은 ‘운전’ 이지만 53개 중 42개 모델이 ‘걷기’ 를 선택 했다고 합니다.

 

Claude Opus 4.6, Gemini 3 시리즈, Grok-4 등 5개 모델만이 10회 반복 테스트에서도 100% 일관된 정답을 냈으며

GPT-5는 10회 중 7회만 정답을 맞혀, 평균 인간 정답률(71.5%) 과 유사한 수준으로 평가됩니다.

실험은 AI의 일관된 추론 능력 부족과 문맥 기반 판단의 한계를 드러내며, 이를 보완하기 위한 ‘컨텍스트 엔지니어링’이 중요하다는 인사이트를 얻을 수 있습니다.

 

 

이 사례에서 배울 점

추론 능력이 없거나 추론 능력은 있지만 일관성 없는 모델에게

맥락 이해에 도움이 되는 정보를 추가로 제공하면 비싼 대형 모델 만큼의 수준을 낼 수 있으니

항상 꼭 비싼 모델을 고집할 필요는 없고 저비용 모델로도 컨텍스트 엔지니어링을 통해 효율적으로 사용할 수 있다. 
이런 내용을 배울 수 있을 거 같습니다.

 

결론은 AI 는 컨텍스트가 전부다. 라고 봐도 무방합니다.

컨텍스트, 맥락 이해, 메모리

 

메모리가 너무너무 중요하고, 메모리 가격이 미친듯이 올라가고 삼전/하이닉스 신고가 찍는 이유가 여기서 바로 보여지죠?

어떤 문제 해결의 결과에 도달하기 까지의 모든 과정들이 히스토리화 되어서 그것을 기반으로 작업이 진행되어야만

맥락을 이해하고 세차장 까지 50m 만 남았는데 차를 끌고가서 세차를 한다 라는 결과를 낼 수 있겠죠?

 

 

 

AI 모델 53종 대상 ‘세차장 테스트’: “세차장이 50m 떨어져 있다면 걸어갈까, 운전 | GeekNews

53개의 주요 AI 모델을 대상으로 테스트한 결과, 대부분이 기초적 추론에 실패함정답은 ‘운전’ 이지만 53개 중 42개 모델이 ‘걷기’ 를 선택Claude Opus 4.6, Gemini 3 시리즈, Grok-4 등 5개 모델만이 10

news.hada.io

 

반응형
저작자표시 비영리 동일조건 (새창열림)

'개발자 글 수집' 카테고리의 다른 글

[AI] 인공지능에게 작업을 위임하는 것. (의도를 실행으로 옮기기)  (0) 2026.02.28
[AI] AI Agent 결국엔 도구(Skill) 싸움이다.  (0) 2026.02.28
[AI] IDE 안에서 클로드 코드 돌리지마라! 요즘 IDE 쓰는 흑우 없재? (with Ghostty)  (0) 2026.02.27
[AI] 오픈클로가 성공한 이유: LLM 시대에 누구나 앱을 만들 수 있게 되었기에 이제는 취향이 중요하다.  (0) 2026.02.27
[AI] 맥미니 Mac Mini M4 자랑, 무조건 빠르게 만드는게 중요한게 아니다  (0) 2026.02.27
    '개발자 글 수집' 카테고리의 다른 글
    • [AI] 인공지능에게 작업을 위임하는 것. (의도를 실행으로 옮기기)
    • [AI] AI Agent 결국엔 도구(Skill) 싸움이다.
    • [AI] IDE 안에서 클로드 코드 돌리지마라! 요즘 IDE 쓰는 흑우 없재? (with Ghostty)
    • [AI] 오픈클로가 성공한 이유: LLM 시대에 누구나 앱을 만들 수 있게 되었기에 이제는 취향이 중요하다.
    snowman95
    snowman95
    (17~19) Unity/Unreal Engine 게임 프로그래머 (20~21) System Administrator ___________ (22~) React 웹 프론트앤드 개발자 __________ 깃헙 : https://github.com/snowman95

    티스토리툴바