關於 Mac mini M4 做叢集 (cluster) 運算跑 LLM 的筆記

Mac mini M4

看到一位 Youtube 影片在實驗 Mac mini 跑大語言模型的最佳組合,做了一些筆記。

來源影片:

電腦清單:

  1. M4 Mac mini 16GB / 256 GB
  2. M4 Mac mini 32GB / 1 TB
  3. M4 Mac mini Pro 24GB / 512 GB
  4. M4 Mac mini 16GB / 256 GB
  5. M4 Mac mini Pro 64GB / 512 GB

筆記:

  • (1B 模型)Mac mini Pro > Mac mini 約 20% 多 (90 tokens/sec vs 70 tokens/sec)
  • (1B 模型)Mac mini 2台 > Mac mini Pro 約 10% 多 (100 tokens/sec vs 90 tokens/sec)
  • 2 台 mini 要直接對連,不要透過 Hub
  • (1B 模型)Mac mini 16GB = Mac mini 32GB => 記憶體不影響輸出 tokens 的速度,但決定能跑多大的模型
  • Mac mini 2台 跑 32B 模型:7 tokens/sec
  • Mac mini Pro 跑 32B 模型:11 tokens/sec
  • Mac mini Pro 2台 跑 70B 模型:4 tokens/sec
  • 5 台跑 1B 模型:70 tokens/sec 因為 Thunderbolt 只有 3 個,透過 hub 會變慢 => 因此最佳組合應為 3+1 共 4 台,全部透過 Thunderbold 直接連接
  • 4 台跑 32B 模型:16 tokens/s ,耗電只有約 50w

我目前電腦 AMD 5700G 跑 Llama 3 8B 約 20 tokens/sec ,算是還不錯,但是看到 70 tokens/sec 那個速度真的爽。

我覺得一般用途跑 8B 70 tokens/sec 是夠用了,但如果要提升工作效率,跑 32B 或 70B 達 70 tokens/sec 應該會更好。

本文網址:https://blog.tonycube.com/2024/12/mac-mini-m4-cluster-run-llm.html
Tony Blog 撰寫,請勿全文複製,轉載時請註明出處及連結,謝謝 😀

我要留言

留言小提醒:
1.回覆時間通常在晚上,如果太忙可能要等幾天。
2.請先瀏覽一下其他人的留言,也許有人問過同樣的問題。
3.程式碼請先將它編碼後再貼上。(線上編碼:http://bit.ly/1DL6yog)
4.文字請加上標點符號及斷行,難以閱讀者恕難回覆。
5.感謝您的留言,您的問題也可能幫助到其他有相同問題的人。