目前用ollama https://ollama.com/ + Page Assist webui
上面東西都安裝完後
在ollama 搜尋模型 用CMD 下載即可 (ollama要開啟)
像是我要裝sakuraLLM 就搜尋sakura 找個符合自己顯卡RAM能跑的 下載下來
EX:sakura-14b-qwen2.5-v1.0-q6k 載點為 ollama run wertya/sakura-14b-qwen2.5-v1.0-q6k
丟到CMD 就會自己下載安裝了
安裝完成後 去chrome擴充開啟 Page Assist webui 把設定裡面的RAG模型改成sakura的 然後回聊天那邊的模型選sakura的就能執行了
最近很火的deepseek 有玩了一下 建議用至少14b以上的模型 14b以下根本來亂的 回答錯誤率很高 但14B也只是堪用而已 要對標4o 至少要32B的 但這個沒有20G RAM以上根本跑不了 整體個人感覺還是4o強
但價差在那邊就是差距
個人認為AI模型最後還是要走向專業化 輕量化 通用型真的部屬成本太高 沒個20G RAM 根本無法跑
反而專業化 輕量化 模型 8~10幾G就能跑了