STRAIT(2) _ BIST(Built-In Self Test)
STRAIT(1) _ AI 가속기의 자가 테스트 및 복구 기술이번 포스팅은『STRAIT: Self-Test and Self-Recovery Architecture for Systolic-Array-Based AI Accelerators』 논문을 바탕으로 제작되었습니다. 최근 AI 가속기의 신뢰성
semicon-circuit.tistory.com
지난 포스팅에서는 자가 테스트 진행 방법을 알아보았습니다. 이번에는 자가 진단 방법에 대해 알아보고, 결함 유형과 진단 논리 구조에 대해서 다룹니다.
결함 위치에 따른 유형
STRAIT에서는 PE 내부의 결함이 위치에 따라 서로 다른 방식으로 영향을 미칩니다. 이 차이를 기반으로 결함을 Local / Row / Column Fault로 구분합니다.
(a) Local Fault – PE 내부 MAC Unit 결함
- MAC 유닛 내부에서 결함이 발생하면, 해당 PE만의 scan-out 데이터에만 영향을 줍니다.
- 인접한 PE에는 영향을 주지 않아 비교적 국소적인 결함입니다.
(b) Row Fault – Activation Register 결함
- Activation Register에 결함이 발생하면, 오른쪽으로 데이터가 전파되므로 한 Row 전체에 오류가 발생합니다.
- PE의 구조상, 좌측에서 우측으로 데이터가 흐르기 때문에 Row 결함입니다.
(c) Column Fault – Weight 또는 Partial Sum Register 결함
- Weight 레지스터 또는 Partial Sum 레지스터에 결함이 발생하면, 해당 PE의 아래 방향으로 전파되므로 Column 단위의 오류가 발생합니다.
결함 위치 식별 방법
각 PE의 scan-out 데이터는 해당 PE에 할당된 메모리에 저장됩니다. 이를 이용하여 테스트 결과 분석 시 데이터 불일치가 발생한 memory ID, Address를 통해 위치를 식별할 수 있습니다.
자가 진단 논리 구조 (DLC, Diagnostic Loop Chain)
DLC는 각 PE마다 하나씩 존재합니다. DLC는 레지스터들의 체인 구조로 구성되어 있으며, 에러 플래그가 순환되도록 설계되어 있습니다.
DLC의 동작은 다음과 같습니다.
- 비교기(Comparator)가 각 PE의 scan-out 데이터를 예상값과 비교합니다.
- 비교 결과 오류가 있으면 1, 없으면 0의 신호가 생성됩니다.
- 이 신호는 해당 PE의 DLC로 입력됩니다.
- DLC 내부에서는 이 오류 플래그가 계속 순환되며, OR 게이트를 통해 누적됩니다.
- 오류가 한 번이라도 발생했다면, 이후 계속 ‘1’로 유지됩니다.
예를 들어, 비교기로부터 에러 신호 1이 DLC에 삽입되었다고 가정합시다. 이 신호는 OR 게이트를 통해 해당 레지스터에 누적됩니다. 테스트 종료 후 DLC 내의 데이터를 분석하여 AND 게이트를 통과하는 신호를 통해 결함의 유형(Row/Column Fault)을 분류할 수 있습니다.
결함 유형 분류
1. Local Fault
Local Fault는 특정 PE의 MAC 연산 유닛에 오류가 있을 때 발생합니다. 따라서 해당 PE의 scan-out 데이터에만 이상이 발생하므로 해당 PE에만 1이 기록됩니다.
2. Row Fault
Activation 데이터는 좌 → 우 방향으로 흐르므로, 해당 행의 여러 PE에 연속적으로 오류가 발생합니다. 따라서 DLC의 우측 끝 레지스터들의 값들을 AND 연산하여 결과가 1이면 Row Fault로 판단합니다.
3. Column Fault
Weight/Partial Sum 데이터는 위 → 아래 방향으로 흐르므로, 해당 열의 여러 PE에 연속적으로 오류가 발생합니다. 따라서 DLC의 하단 끝 레지스터들의 값들을 AND 연산하여 결과가 1이면 Column Fault로 판단합니다.
이렇게 식별된 결함 위치와 유형은 eNVM에 저장되며, 이후에 PE 복구 경로 우회, 결함 PE 마스킹, 테스트 이력 관리 등에 활용되어 복구 알고리즘 형성에 기여합니다.
다음 포스팅: STRAIT의 BISR(Built-In Self-Recovery)
STRAIT(4) _ BISR(Built-In Self-Recovery)
STRAIT(3) _ Self-DiagnosisSTRAIT(2) _ BIST(Built-In Self Test)STRAIT(1) _ AI 가속기의 자가 테스트 및 복구 기술이번 포스팅은『STRAIT: Self-Test and Self-Recovery Architecture for Systolic-Array-Based AI Accelerators』 논문을 바탕
semicon-circuit.tistory.com
'반도체 시사' 카테고리의 다른 글
STRAIT(4) _ BISR(Built-In Self-Recovery) (0) | 2025.05.06 |
---|---|
STRAIT(2) _ BIST(Built-In Self Test) (0) | 2025.05.05 |
STRAIT(1) _ AI 가속기의 자가 테스트 및 복구 기술 (2) | 2025.05.05 |
AI 가속기(5) _ Systolic Array 설계의 도전 과제 (1) | 2025.05.05 |