__________

Designing the Future with Circuits

반도체 회로설계 취준기

반도체 시사

STRAIT(1) _ AI 가속기의 자가 테스트 및 복구 기술

semicon_designer 2025. 5. 5. 17:28
728x90

이번 포스팅은『STRAIT: Self-Test and Self-Recovery Architecture for Systolic-Array-Based AI Accelerators』 논문을 바탕으로 제작되었습니다.

 

최근 AI 가속기의 신뢰성과 안전성이 중요해지면서, Systolic Array 기반 AI 가속기 내부 결함을 스스로 테스트하고 복구하는 기술이 주목받고 있습니다. 특히 고장난 PE(Processing Element)를 실시간으로 진단하고, 재구성할 수 있는 STRAIT 구조는 AI 하드웨어의 내구성과 효율성을 크게 향상시킬 수 있는 핵심 기술입니다.

 

이번 포스팅에서는 STRAIT(Self-Test and Self-Recovery Architecture) 구조의 핵심 개념과 동작 원리, 기존 방식의 한계점, 그리고 STRAIT이 이를 어떻게 극복하는지 상세히 살펴보겠습니다.

 

Self-Test & Self-Recovery의 필요성

 

AI 가속기 내부의 Systolic Array는 수백~수천 개의 PE로 구성되며, 연산 과정에서 과열, 노이즈, 결함 등으로 인해 오작동 가능성이 존재합니다

 

특히 Systolic Array의 데이터 이동 특성 상 PE에 오류가 발생하면 곱셈, 누산이 진행되며 결함의 영향도 누적됩니다. 이는 전체 연산 결과에 영향을 미치게 되고 심각한 오류로 이어질 수 있습니다. 따라서 결함을 빠르게 탐지하고, 최소한의 리소스로 복구할 수 있는 시스템이 필요합니다.

 

STRAIT 구조 개요

STRAIT 구조

 

STRAIT는 다음의 네 개의 모듈과 세 가지 주요 기능으로 구성된 자가 테스트 및 복구 시스템입니다.

 

1. Hybrid BIST (Built-In Self-Test): 내장형 자가 테스트

  • 역할: Systolic array 내부의 Processing Element (PE) 고장을 탐지하는 역할을 수행합니다.
  • 구성요소
    • Scan data generator: 미리 저장된 scan test 패턴을 기반으로 테스트용 데이터를 생성
    • Comparator: PE의 출력과 expected value를 비교하여 fault 여부를 판단
  • 특징: eNVM에 저장된 test pattern과 결합하여 고속 테스트가 가능하며, scan 기반 테스트와 로직 내장 비교가 통합됩니다.
  • 동작: 테스트 패턴을 eNVM에서 가져와 하이브리드 BIST 모듈이 Scan Chain을 통해 Stuck-At(SA) Fault, Transition-Delay(TD) Fault 테스트를 진행합니다.

2. Diagnosis Module: 자가 진단

  • 역할: Hybrid BIST에서 감지한 fault에 대해 보다 정밀한 고장 위치 파악을 수행합니다.
  • 구성요소
    • Diagnostic loop chains (DLCs): 각 PE의 연결 상태를 순차적으로 진단할 수 있는 루프 형태의 경로
    • Row detector / Column detector: 고장 난 PE가 위치한 행 또는 열을 탐지하여 구체적인 위치를 좁혀나감
  • 특징: 불량 PE의 위치를 고속으로 분리해낼 수 있는 구조로, 이후 복구 모듈과 연동됩니다.
  • 동작: 진단 모듈이 Hybrid BIST와 동시에 작동하며 DLC를 통해 결함의 위치/유형을 실시간으로 파악하며, 결과를 eNVM에 저장합니다.

3. BISR (Built-In Self-Recovery): 내장형 자가 복구

  • 역할: 고장난 PE를 우회(bypass)하여 연산을 지속 가능하게 만드는 self-repair 메커니즘입니다.
  • 구성요소
    • Raw weight storage: 초기 가중치 데이터를 저장하는 메모리 공간
    • Address mapping table: 정상 PE와 불량 PE를 구분하여 가중치를 리맵(mapping)하는 테이블
    • Faulty PE position storage: 진단 결과를 바탕으로 불량 PE의 위치를 기록한 저장소
  • 특징: PE 교체 없이 weight rerouting 방식으로 빠르게 복구 가능. 가중치 저장은 연산 중 실시간 리맵을 위해 중요.
  • 동작: BISR 모듈이 eNVM에서 진단 결과를 받아 결함 PE를  Pruning하여  가중치를 교환/할당(복구 작업)합니다.

4. eNVM (embedded Non-Volatile Memory)

  • 역할: Scan test pattern과 fail map를 사전에 저장합니다.
  • 특징: 전원이 꺼져도 유지되는 정보로, 부팅 시 진단과 복구 루틴에 바로 활용되며, 기존 BIST 구조보다 초기화/검증에 효율적입니다.

다음 포스팅: STRAIT의 BIST(Built-In Self Test)

 

STRAIT(2) _ BIST(Built-In Self Test)

STRAIT(1) _ AI 가속기의 자가 테스트 및 복구 기술이번 포스팅은『STRAIT: Self-Test and Self-Recovery Architecture for Systolic-Array-Based AI Accelerators』 논문을 바탕으로 제작되었습니다. 최근 AI 가속기의 신뢰성

semicon-circuit.tistory.com

 

728x90