엔비디아 rtx 5000 시리즈 pytorch sm 에러
5070ti가 장착된 pc의 학습 환경 셋업을 하는데 뭔가 잘 안된다
torch를 import해서 사용하려고 하면, sm100 sm120 에러가 발생한다
찾아보니 이 sm코드는 엔비디아의 아키텍처와 관련된 코드였다
그리고 더 찾아보다가 . .
이게 nvidia GeForce RTX 50 시리즈의 호환성 문제임을 알았다
https://discuss.pytorch.org/t/pytorch-support-for-sm120/216099
Pytorch support for sm120
I apologize if this is the incorrect place to ask… I have an rtx5080 that I was lucky enough to grab… but I can not get it to work with pytorch… I keep getting an error because pytorch does not support cm120… I’ve tried everything to work around
discuss.pytorch.org
현재 torch가 정식으로 블랙웰 아키텍처를 아직 지원하지 않는 듯하다
그래서 nightly 버전으로 설치했는데 뭐가 또 잘 안됨
도커 환경을 구성해보려고, 호스트에서 cuda 12.8로 두고 cuda 12.1, 11.8 같은 컨테이너를 올리려는데 sm 에러가 발생했다
생각해보니 당연한 결과다
gpu 아키텍처가 바꼈으니.. 하위 버전은 절대 호환될 수가 없음. 또 낮은 버전의 cuda는 사용이 불가하고.
블랙웰 아키텍처 구조의 sm100과 sm120이 잘 호환되려면 torch에서 업데이트 해주길 기다리는 수 밖에 없다
결론 : 기존 모델을 쓸 수 없는 어려움이 있어서, rtx 50 시리즈 구매는 아직 . .. 비추천
하드웨어 성능이 좋아져도 그걸 활용할 수 있는 생태계가 미흡함
역시 최신 것을 사용하면 어려움이 있다
30 시리즈에서 40 시리즈 갈 땐 이런 문제가 없었던 것 같은데.