그래픽 카드 말고, 컴퓨터에 추가 가능한 AI NPU 칩셋 종류 리스트업
현재 인공지능과 머신러닝의 발전에 따라, 보다 효율적이고 강력한 연산 성능을 제공하는 NPUs(Neural Processing Units)의 필요성이 증가하고 있다. 특히, AI 작업을 가속화할 수 있는 다양한 NPU AI칩셋, 하드웨어가 작년부터 하나둘 시장에 등장하고 있으며, 그 중에서도 M.2와 PCIe 규격의 NPUs가 있다. 물론 AMD 의 8000 시리즈 처럼 일부 CPU에 탑재되는 제품들도 있다.
하지만 구형 CPU를 사용하기 위해선 NPU가 탑재된 CPU 로 업그레이드를 해야하는데, 마더와 RAM 메모리를 전부 교체해야 하니 데스크탑을 새로이 맞추는 비용이 들 정도로 배꼽이 커지는 상황이다.
물론 제품 교체나 CPU 교체, 신제품을 맞추는 것 외에도 현재 컴퓨터에 AI를 추가/사용할 수 있는 방법으로는
1. NVidia 의 그래픽 카드를 사용하거나.
2. AI 칩셋을 따로 구매하여 연결하는 방법이 있다.
많은 사람들이 1번의 방법을 사용하지만, 최근에는 소소하게 추가 가능한, M.2 규격이나 그래픽 카드보다 연산능력은 떨어져도 PCIe 규격을 통해 높은 성능을 내는 NPU 제품들도 속속들이 나오고 있다. M.2는 소형 폼팩터와 저전력 소비를 특징으로, 작은 시스템이나 임베디드 환경에서의 활용하기 위해, PCIe는 높은 데이터 대역폭과 성능을 제공하며, 데스크탑 및 서버 환경에서 보다 나은 AI 연산을 가능하게 해준다.
이번 글에서는 어떠한 AI NPU 칩셋 제품들이 있는지 리스트업 해본다.
PCIe 규격, AI NPU 칩셋
PCIe 규격인 만큼, 데스크탑 시스템이나 서버에 주로 사용된다.
TensTorrent Grayskull e75
- Performance: 221 TOPS (FP8)
- Memory: 8 GB LPDDR4, 118.4 GB/s 대역폭
- Interface: PCIe 4.0 x16 (31.5 GB/s)
- Form Factor: PCIe 카드
- Notes: 높은 성능의 PCIe 카드, 높은 메모리 대역폭.
TensTorrent Grayskull e150
- Performance: 332 TOPS (FP8)
- Memory: 8 GB LPDDR4, 118.4 GB/s 대역폭
- Interface: PCIe 4.0 x16 (31.5 GB/s)
- Form Factor: PCIe 카드
- Notes: e75 모델보다 성능이 높음, 동일한 메모리 및 인터페이스.
Hailo-8 Falcon Lite PCIe Card
- Performance: 최대 106 TOPS
- TDP: 미제공
- Memory: 호스트 시스템 메모리 사용
- Interface: PCIe
- Form Factor: PCIe 카드 (1, 2, 또는 4 Hailo-8 칩)
- Notes: 1, 2, 4 개의 Hailo-8 칩 옵션.
Hailo-8 Falcon-H8 PCIe Card
- Performance: 최대 156 TOPS
- TDP: 미제공
- Memory: 호스트 시스템 메모리 사용
- Interface: PCIe
- Form Factor: PCIe 카드 (최대 6 Hailo-8 칩)
- Notes: 6 개의 Hailo-8 칩을 장착한 고성능 카드.
Asus AI Accelerator PCIe Card
- Performance: 32 또는 64 TOPS (구성에 따라 다름)
- TDP: 미제공
- Memory: 호스트 시스템 메모리 사용
- Interface: PCIe
- Form Factor: PCIe 카드 (8 또는 16 Edge TPUs)
- Notes: 다수의 Edge TPU를 장착한 강력한 PCIe 카드.
- AI Accelerator PCIe Card|AIoT & Industrial Solutions|ASUS Global
M.2 규격 AI NPU 칩셋
M.2는 주로 컴팩트한 형태로 사용되며, 소형 미니PC, 임베디드 PC, 시스템, 노트북, 소형 서버 등 간단하게 AI 칩셋을 추가하는 정도로 출시되고 있다.
Kinara Ara-2 (M.2)
- Performance: 20 TOPS
- TDP: < 6 watts
- Memory: 2 or 8 GB
- Interface: M.2 (가능한 포맷: M.2 2230, 2242 등)
- Form Factor: M.2
- Notes: 저전력, 소형 형식.
- Kinara Ara-2 – Kinara, Inc.
Hailo-8 M.2 AI Acceleration Module
- Performance: 26 TOPS
- TDP: 미제공
- Memory: 호스트 시스템 메모리 사용
- Interface: PCIe 3.0 x2 (2 GB/s)
- Form Factor: M.2 2242
- Notes: 호스트 시스템 메모리 사용, 소형 M.2 카드.
- AI M.2 Accelerator: Hailo-8 AI Module | Superior Edge Performance
Hailo-10H M.2 AI Processor
- Performance: 40 TOPS
- TDP: 3.5 watts
- Memory: 8 GB LPDDR4
- Interface: PCIe 3.0 x4 (4 GB/s)
- Form Factor: M.2 2242
- Notes: 낮은 전력 소모와 높은 메모리 대역폭.
Coral M.2 2230 (2 Edge TPUs)
- Performance: 8 TOPS (int8)
- TDP: < 4 watts (두 개의 Edge TPU 조합)
- Memory: 호스트 시스템 메모리 사용
- Interface: PCIe 2.0 x1
- Form Factor: M.2 2230
- Notes: 두 개의 Edge TPU를 장착한 저전력 카드.
- Mini PCIe Accelerator | Coral
현재 한국에서도 사용 빈도와 인지도가 높은 제품으로는 TensTorrent 제품이 대표적이다.
요약
- M.2 규격: Kinara Ara-2, Hailo-8 M.2, Hailo-10H, Coral M.2 등의 제품들이 소형 시스템에 적합하며, 저전력 및 작은 폼팩터를 제공합니다. 이들은 작은 크기와 제한된 전력 소비로 AI 가속 작업에 적합합니다.
- PCIe 규격: TensTorrent Grayskull e75/e150, Hailo-8 Falcon 시리즈, Asus AI Accelerator 등은 더 높은 성능과 확장성을 제공하며, 주로 데스크탑이나 서버 환경에서 사용됩니다. PCIe x16 인터페이스는 높은 데이터 대역폭과 처리 능력을 제공하여 더 큰 작업을 처리할 수 있습니다.
참고사항
현재 그래픽카드 중 가장 높은 연산능력을 가지는 엔비디아 RTX 4090 와 하위 라인업 엔비디아 RTX 4060 의 성능은 다음과 같다. 아무리 PCIe 용 칩셋과 M.2용 칩셋이 다양하게 나온다고는 해도 NVidia RTX 4000번대의 성능이 너무 압도적이다.
Nvidia RTX 4090
- 성능: 1321 TOPS
- 메모리: 1008 GB/s 대역폭
- TDP: 450W
- 인터페이스: PCIe
Nvidia RTX 4060
- 성능: 242 TOPS
- 메모리: 272 GB/s 대역폭
- TDP: 115W
- 인터페이스: PCIe