關於 Mac mini M4 做叢集 (cluster) 運算跑 LLM 的筆記

AI LLM Mac 12月 17, 2024

Mac mini M4

看到一位 Youtube 影片在實驗 Mac mini 跑大語言模型的最佳組合，做了一些筆記。

來源影片：

電腦清單：

M4 Mac mini 16GB / 256 GB
M4 Mac mini 32GB / 1 TB
M4 Mac mini Pro 24GB / 512 GB
M4 Mac mini 16GB / 256 GB
M4 Mac mini Pro 64GB / 512 GB

筆記：

(1B 模型)Mac mini Pro > Mac mini 約 20% 多 (90 tokens/sec vs 70 tokens/sec)
(1B 模型)Mac mini 2台 > Mac mini Pro 約 10% 多 (100 tokens/sec vs 90 tokens/sec)
2 台 mini 要直接對連，不要透過 Hub
(1B 模型)Mac mini 16GB = Mac mini 32GB => 記憶體不影響輸出 tokens 的速度，但決定能跑多大的模型
Mac mini 2台跑 32B 模型：7 tokens/sec
Mac mini Pro 跑 32B 模型：11 tokens/sec
Mac mini Pro 2台跑 70B 模型：4 tokens/sec
5 台跑 1B 模型：70 tokens/sec 因為 Thunderbolt 只有 3 個，透過 hub 會變慢 => 因此最佳組合應為 3+1 共 4 台，全部透過 Thunderbold 直接連接
4 台跑 32B 模型：16 tokens/s ，耗電只有約 50w

我目前電腦 AMD 5700G 跑 Llama 3 8B 約 20 tokens/sec ，算是還不錯，但是看到 70 tokens/sec 那個速度真的爽。

我覺得一般用途跑 8B 70 tokens/sec 是夠用了，但如果要提升工作效率，跑 32B 或 70B 達 70 tokens/sec 應該會更好。

本文網址：http://blog.tonycube.com/2024/12/mac-mini-m4-cluster-run-llm.html
由 Tony Blog 撰寫，請勿全文複製，轉載時請註明出處及連結，謝謝 😀

我要留言

留言小提醒：
1.回覆時間通常在晚上，如果太忙可能要等幾天。
2.請先瀏覽一下其他人的留言，也許有人問過同樣的問題。
3.程式碼請先將它編碼後再貼上。(線上編碼：http://bit.ly/1DL6yog)
4.文字請加上標點符號及斷行，難以閱讀者恕難回覆。
5.感謝您的留言，您的問題也可能幫助到其他有相同問題的人。