THE MACHINE

이 실험실은 남는 방의 랙 하나입니다.

ArkNode는 LXC 컨테이너로 쪼갠 Proxmox 호스트 한 대에서 돌아갑니다 — 컨테이너당 GPU 하나, VM 없음, 클라우드 없음. 이 사이트의 모든 실험은 아래 하드웨어에서 학습되고, 백테스트되고, 실패했습니다.

의도적으로 지루하게 만들었습니다. 컨슈머 부품, 필요한 곳엔 ECC, 모든 것에 런북. 하드웨어가 말썽을 부리면 그것도 포스트가 됩니다.

TOPOLOGY
pve01PROXMOX VEEPYC 7443gpu01RTX 4090 · TRAINgpu02RTX 4090 · TRAINgpu03RTX 3090 · INFERgpu04RTX 3090 · EMBEDnas01ZFS · 48 TB
HARDWARE
NODEHARDWAREMEMROLESTATUS
pve01EPYC 7443 · 24C512 GB ECCProxmox VE host● ONLINE
gpu01RTX 409024 GBTraining● ONLINE
gpu02RTX 409024 GBTraining (busy)● BUSY
gpu03RTX 309024 GBInference · evals● ONLINE
gpu04RTX 309024 GBEmbeddings · data● ONLINE
nas01ZFS mirror48 TBStorage● ONLINE

GPU 패스스루, 발열, 백업 정책 — 전체 런북은 빌드 로그에 있습니다. 새벽 2시에 뭔가 부서졌다면, 그에 대한 글이 있습니다.

빌드 로그 읽기 →