看到一位 Youtube 影片在實驗 Mac mini 跑大語言模型的最佳組合,做了一些筆記。
來源影片:
電腦清單:
- M4 Mac mini 16GB / 256 GB
- M4 Mac mini 32GB / 1 TB
- M4 Mac mini Pro 24GB / 512 GB
- M4 Mac mini 16GB / 256 GB
- M4 Mac mini Pro 64GB / 512 GB
筆記:
- (1B 模型)Mac mini Pro > Mac mini 約 20% 多 (90 tokens/sec vs 70 tokens/sec)
- (1B 模型)Mac mini 2台 > Mac mini Pro 約 10% 多 (100 tokens/sec vs 90 tokens/sec)
- 2 台 mini 要直接對連,不要透過 Hub
- (1B 模型)Mac mini 16GB = Mac mini 32GB => 記憶體不影響輸出 tokens 的速度,但決定能跑多大的模型
- Mac mini 2台 跑 32B 模型:7 tokens/sec
- Mac mini Pro 跑 32B 模型:11 tokens/sec
- Mac mini Pro 2台 跑 70B 模型:4 tokens/sec
- 5 台跑 1B 模型:70 tokens/sec 因為 Thunderbolt 只有 3 個,透過 hub 會變慢 => 因此最佳組合應為 3+1 共 4 台,全部透過 Thunderbold 直接連接
- 4 台跑 32B 模型:16 tokens/s ,耗電只有約 50w
我目前電腦 AMD 5700G 跑 Llama 3 8B 約 20 tokens/sec ,算是還不錯,但是看到 70 tokens/sec 那個速度真的爽。
我覺得一般用途跑 8B 70 tokens/sec 是夠用了,但如果要提升工作效率,跑 32B 或 70B 達 70 tokens/sec 應該會更好。
本文網址:http://blog.tonycube.com/2024/12/mac-mini-m4-cluster-run-llm.html
由 Tony Blog 撰寫,請勿全文複製,轉載時請註明出處及連結,謝謝 😀
由 Tony Blog 撰寫,請勿全文複製,轉載時請註明出處及連結,謝謝 😀
我要留言
留言小提醒:
1.回覆時間通常在晚上,如果太忙可能要等幾天。
2.請先瀏覽一下其他人的留言,也許有人問過同樣的問題。
3.程式碼請先將它編碼後再貼上。(線上編碼:http://bit.ly/1DL6yog)
4.文字請加上標點符號及斷行,難以閱讀者恕難回覆。
5.感謝您的留言,您的問題也可能幫助到其他有相同問題的人。