TL;DR
- LLM cục bộ “tốt nhất” vào năm 2026 phụ thuộc vào VRAM, mục tiêu độ trễ và workload: lập trình, suy luận, đa ngôn ngữ, thị giác hoặc gọi công cụ.
- Với GPU 24 GB, Qwen 3.6 32B và DeepSeek V4 Flash là hai lựa chọn toàn diện nhất.
- Với 8 GB VRAM hoặc thấp hơn, Gemma 4 9B và Llama 5.1 8B là các lựa chọn thực tế hơn.
- Với suy luận hoặc lập trình chuyên sâu, DeepSeek V4 Pro đã lượng tử hóa hoặc GLM 5.1 dẫn đầu trong nhóm mô hình mở.
- Dùng Ollama, vLLM hoặc LM Studio để expose model qua HTTP endpoint tương thích OpenAI, sau đó kiểm thử bằng Apidog như một API được lưu trữ.
Hướng dẫn này tập trung vào cách chọn, chạy và kiểm thử LLM cục bộ trong môi trường developer thực tế. Bạn sẽ thấy bảy model đáng chạy trong năm 2026, phần cứng phù hợp cho từng model, cách expose chúng qua endpoint tương thích OpenAI và cách dùng Apidog để gửi request, replay prompt, mock endpoint và đo hiệu năng. Nếu bạn muốn đi sâu vào DeepSeek, xem thêm hướng dẫn cài đặt DeepSeek V4 cục bộ và tổng quan DeepSeek V4.
Tại sao LLM cục bộ lại quan trọng trở lại vào năm 2026
Ba năm trước, chạy “LLM cục bộ” thường đồng nghĩa với việc chấp nhận chất lượng thấp hơn. Điều đó không còn đúng nữa. Các mô hình mã nguồn mở đã bắt kịp nhiều hệ thống cấp GPT-4 được lưu trữ trong năm 2024 và vượt trội về chi phí mỗi token vào giữa năm 2025.
Với nhiều tác vụ như phân loại, trích xuất dữ liệu, gọi công cụ và xử lý JSON có cấu trúc, khoảng cách chất lượng giữa model cục bộ và model được lưu trữ gần như không còn là vấn đề chính. Vấn đề thực tế hơn là:
- Model có vừa VRAM không?
- Độ trễ có phù hợp với sản phẩm không?
- Endpoint có thể thay thế OpenAI-compatible API hiện tại không?
- CI/CD có thể test mà không phụ thuộc GPU không?
- Team có thể replay prompt và so sánh output giữa các phiên bản model không?
Phần cứng cũng đã thay đổi. Một GPU tiêu dùng 24 GB có thể chạy model 32B ở lượng tử hóa 4-bit với tốc độ đủ dùng cho nhiều workflow. Mac Studio với bộ nhớ hợp nhất lớn có thể chạy các biến thể MoE như DeepSeek V4 Flash ở tốc độ thực tế. Với các team quan tâm đến chủ quyền dữ liệu, chi phí suy luận hoặc vendor lock-in, LLM cục bộ không còn chỉ là thử nghiệm nghiên cứu.
Tiêu chí chọn model
Danh sách này không chỉ dựa trên benchmark. Các tiêu chí thực tế hơn gồm:
- Model mã nguồn mở hoặc có giấy phép cho phép dùng trong sản xuất.
- Được duy trì tích cực trong năm 2026.
- Có đường dẫn triển khai tương thích OpenAI qua Ollama, vLLM hoặc LM Studio.
- Mạnh ở ít nhất một nhóm tác vụ: suy luận, code, đa ngôn ngữ, thị giác, context dài hoặc gọi công cụ.
- Có cấu hình phần cứng hợp lý, đặc biệt với GPU 24 GB hoặc máy Mac Apple silicon.
Chúng tôi đối chiếu kết quả với sân đấu LMSYS và Bảng xếp hạng LLM mở của Hugging Face khi phù hợp.
Bảy LLM cục bộ đáng chạy vào năm 2026
1. DeepSeek V4 Pro
DeepSeek V4 Pro là biến thể chủ lực, có bản GGUF 4-bit và AWQ trên Hugging Face. Model đầy đủ có 1.6T tham số với 49B tham số hoạt động, nên yêu cầu phần cứng rất cao. Khi lượng tử hóa Q4, model phù hợp hơn với hệ thống có bộ nhớ rất lớn như 2x H100 80 GB hoặc Mac Studio M3 Ultra 192 GB.
Với đa số developer, V4 Pro không phải lựa chọn đầu tiên để chạy hằng ngày. Giá trị chính của nó nằm ở năng lực suy luận và vai trò làm nền cho các biến thể nhỏ hơn hoặc model tinh chỉnh. Nếu muốn dùng endpoint được lưu trữ thay vì tự chạy, xem cách sử dụng API DeepSeek V4.
Dùng khi:
- Bạn cần reasoning mạnh.
- Bạn có phần cứng cao cấp.
- Bạn đang xây agent phức tạp và cần model lớn.
Phần cứng gợi ý:
- 192 GB bộ nhớ hợp nhất, hoặc
- 2x GPU 80 GB.
Tải model:
2. DeepSeek V4 Flash
DeepSeek V4 Flash là lựa chọn thực tế hơn cho nhiều team. Model có tổng 284B tham số, 13B tham số hoạt động. Với lượng tử hóa 4-bit, nó có thể vừa GPU 24 GB và vẫn còn không gian cho context window lớn.
Đây là model phù hợp nếu bạn muốn chạy reasoning, code assistant hoặc RAG generator cục bộ mà không cần cụm GPU lớn. Trên một 4090, thông lượng trung bình trong thử nghiệm tạo nội dung dài đạt khoảng 28 token/giây. Hướng dẫn cài đặt DeepSeek V4 cục bộ trình bày chi tiết cách thiết lập với Ollama.
Dùng khi:
- Xây local agent.
- Làm trợ lý lập trình nội bộ.
- Tạo pipeline RAG.
- Cần cân bằng giữa chất lượng và phần cứng.
Phần cứng gợi ý:
- 24 GB VRAM ở Q4.
- 16 GB VRAM ở Q3 nếu chấp nhận giảm chất lượng.
Chạy với Ollama:
ollama pull deepseek-v4-flash
ollama serve
Endpoint mặc định:
http://localhost:11434/v1
Tải model:
3. Qwen 3.6
Qwen 3.6 là một trong các lựa chọn ổn định nhất nếu bạn cần model đa ngôn ngữ. Ở cấu hình Q4, Qwen 3.6 32B vừa GPU 24 GB và vượt nhiều model cũ hơn ở các tác vụ suy luận, gọi công cụ và xử lý output có cấu trúc.
Điểm mạnh lớn nhất là đa ngôn ngữ. Qwen xử lý tốt tiếng Trung, Nhật, Hàn, Ả Rập và nhiều ngôn ngữ ngoài tiếng Anh. Nếu sản phẩm của bạn phục vụ nhiều thị trường, Qwen 3.6 32B là một lựa chọn an toàn hơn so với nhiều model chỉ tối ưu cho tiếng Anh.
Dùng khi:
- Sản phẩm đa ngôn ngữ.
- Cần JSON output ổn định.
- Cần gọi công cụ.
- Cần model cân bằng giữa chất lượng và chi phí phần cứng.
Phần cứng gợi ý:
- 24 GB VRAM ở Q4.
Chạy với Ollama:
ollama pull qwen3.6:32b
ollama serve
Tải model:
4. GLM 5.1
GLM 5.1 là lựa chọn mạnh cho gọi công cụ, phân loại và trích xuất dữ liệu có cấu trúc. Trong nhóm model mở, GLM 5.1 đạt điểm cao trên các benchmark liên quan đến tool calling, chỉ đứng sau DeepSeek V4 trong một số đánh giá.
Điểm yếu tương đối của GLM 5.1 là lập trình. Nếu workload chính của bạn là viết code, Qwen hoặc DeepSeek thường phù hợp hơn. Nhưng nếu bạn cần agent gọi API, parse schema, trích xuất trường dữ liệu hoặc tuân thủ JSON schema, GLM 5.1 là lựa chọn đáng thử.
Dùng khi:
- Xây agent gọi tool.
- Trích xuất dữ liệu có cấu trúc.
- Chạy pipeline JSON mode.
- Cần kiểm soát định dạng output.
Triển khai:
- Ollama cho thử nghiệm nhanh.
- vLLM cho môi trường cần throughput cao.
5. Llama 5.1 8B
Llama 5.1 8B phù hợp với máy có VRAM thấp hoặc Apple silicon có bộ nhớ hợp nhất vừa phải. Đây là lựa chọn thực tế nếu bạn cần model nhỏ, dễ triển khai và đủ tốt cho các tác vụ như:
- Chat nội bộ.
- Tóm tắt ngắn.
- Phân loại.
- Sinh nội dung đơn giản.
- Prototype agent.
Dùng khi:
- Bạn có 8 GB VRAM hoặc thấp hơn.
- Bạn ưu tiên độ trễ thấp.
- Bạn muốn model nhỏ để chạy liên tục trên máy cá nhân.
Ví dụ chạy qua Ollama:
ollama pull llama5.1:8b
ollama serve
Sau đó gọi qua endpoint tương thích OpenAI:
http://localhost:11434/v1
6. Gemma 4 9B
Gemma 4 9B là lựa chọn tốt cho máy cá nhân, đặc biệt nếu bạn chạy trên Mac hoặc laptop có bộ nhớ hợp nhất từ 16 GB trở lên. Model này phù hợp với các workflow cần tốc độ phản hồi nhanh hơn là reasoning phức tạp.
Dùng khi:
- Làm voice assistant.
- Sinh draft ngắn.
- Tạo phản hồi nhanh trong ứng dụng desktop.
- Chạy local-first app.
Phần cứng gợi ý:
- Apple silicon với 16 GB bộ nhớ hợp nhất trở lên.
- GPU nhỏ nếu dùng bản lượng tử hóa.
7. Model nhỏ/tinh chỉnh cho workload cụ thể
Không phải lúc nào model lớn nhất cũng tốt nhất. Với các tác vụ hẹp như phân loại ticket, chuẩn hóa dữ liệu, tạo nhãn hoặc trích xuất trường từ văn bản, model nhỏ được tinh chỉnh tốt có thể nhanh hơn, rẻ hơn và ổn định hơn.
Dùng khi:
- Prompt có cấu trúc cố định.
- Output là JSON schema rõ ràng.
- Bạn cần throughput cao.
- Bạn không cần reasoning dài.
Lưu ý bảo mật:
Chỉ dùng model gốc hoặc bản tinh chỉnh từ tác giả đáng tin cậy. Không nên đưa model tinh chỉnh ngẫu nhiên từ Hugging Face vào pipeline sản xuất nếu chưa kiểm tra kỹ.
Triển khai model như một API được lưu trữ
Khi model đã chạy được, bước tiếp theo là expose nó thành HTTP API để ứng dụng có thể gọi như gọi OpenAI.
Ba lựa chọn phổ biến:
Ollama: nhanh nhất để bắt đầu
Ollama expose endpoint tương thích OpenAI tại:
http://localhost:11434/v1
Chạy:
ollama serve
Sau đó ứng dụng chỉ cần đổi base_url.
vLLM: phù hợp hơn cho production
vLLM hỗ trợ throughput cao, continuous batching và endpoint tương thích OpenAI. Đây là lựa chọn tốt hơn nếu bạn cần tối ưu latency, nhiều request đồng thời hoặc triển khai server riêng.
Endpoint thường có dạng:
http://localhost:8000/v1
LM Studio: phù hợp với developer cá nhân
LM Studio có GUI, dễ tải model và bật local server. Đây là lựa chọn tiện nếu bạn muốn thử nghiệm nhanh mà không cần cấu hình nhiều.
Gọi LLM cục bộ bằng OpenAI Python SDK
Vì Ollama, vLLM và LM Studio đều có thể expose API tương thích OpenAI, bạn có thể giữ nguyên client code và chỉ thay base_url.
Ví dụ với Ollama:
from openai import OpenAI
client = OpenAI(
api_key="ollama", # Ollama bỏ qua giá trị này
base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(
model="qwen3.6:32b",
messages=[
{
"role": "user",
"content": "Tóm tắt sự khác nhau giữa MoE và dense model trong ba gạch đầu dòng."
}
],
temperature=0.3,
)
print(resp.choices[0].message.content)
Đổi model rất đơn giản:
model="deepseek-v4-flash"
hoặc:
model="llama5.1:8b"
Pattern này cũng là cách bạn chuyển đổi giữa hosted model và local model. Chúng tôi đã trình bày thêm trong bài cách sử dụng DeepSeek V4 miễn phí.
Kiểm thử LLM cục bộ với Apidog
Khác biệt lớn giữa hosted model và local model không chỉ nằm ở chất lượng. Khác biệt lớn hơn là bạn chịu trách nhiệm debug toàn bộ stack.
Khi OpenAI gặp sự cố, bạn kiểm tra status page. Khi Ollama hoặc vLLM gặp sự cố, bạn cần tự kiểm tra:
- Request body thực tế là gì?
- Streaming response có đúng format không?
- Tool call có đúng schema không?
- Model mới có phá vỡ output cũ không?
- Q4 và Q5 khác nhau thế nào về latency?
- CI có thể chạy mà không cần GPU không?
Apidog xem endpoint Ollama hoặc vLLM như bất kỳ REST API nào khác.
1. Lưu request chuẩn cho từng model
Tạo collection cho từng model:
qwen3.6:32bdeepseek-v4-flashllama5.1:8bgemma4:9b
Mỗi request nên lưu:
- Prompt thực tế.
-
temperature. -
max_tokens. - Tool definitions.
- JSON schema kỳ vọng.
- Header và base URL.
Ví dụ body cho Chat Completions:
{
"model": "qwen3.6:32b",
"messages": [
{
"role": "system",
"content": "Bạn là trợ lý kỹ thuật. Trả lời ngắn gọn bằng tiếng Việt."
},
{
"role": "user",
"content": "Giải thích cách hoạt động của KV cache trong LLM."
}
],
"temperature": 0.2,
"max_tokens": 500
}
2. Replay prompt để phát hiện regression
Khi đổi model hoặc đổi lượng tử hóa, replay cùng một bộ prompt. So sánh:
- Chất lượng câu trả lời.
- Độ dài output.
- Format JSON.
- Tool call arguments.
- Latency.
- Time to first token.
Việc này giúp phát hiện lỗi trước khi người dùng thấy chúng.
3. Mock endpoint cho CI
Không nên để unit test phụ thuộc vào GPU cục bộ. Nếu CI phải gọi model thật, pipeline sẽ dễ lỗi do:
- GPU không có sẵn.
- Process bị OOM.
- Model load quá lâu.
- Driver hoặc runtime lỗi.
Thay vào đó, mock endpoint bằng Apidog với JSON response hoặc streaming response giống thật. Test vẫn kiểm tra được client logic mà không cần khởi động model 24 GB.
4. Đo hiệu năng request
Khi benchmark model, đừng chỉ nhìn “cảm giác nhanh”. Hãy đo:
- Latency tổng.
- Time to first token.
- Token/giây.
- Số lỗi.
- Kích thước context.
- Ảnh hưởng của Q4, Q5 hoặc Q3.
Dùng cùng một prompt set cho nhiều model để kết quả có ý nghĩa.
5. Tài liệu hóa API nội bộ
Khi endpoint local đã ổn định, export hoặc chia sẻ spec để đồng đội biết cách gọi. Apidog hỗ trợ workflow tài liệu hóa API và OpenAPI 3.1. Chúng tôi cũng đề cập quy trình tương tự trong bài Apidog như một giải pháp thay thế Postman.
Những lỗi thường gặp khi chạy LLM cục bộ
Chọn model lớn nhất mà GPU có thể chứa
Model 32B ở Q3 có thể tệ hơn model 14B ở Q5. Sau mức 4-bit, chất lượng lượng tử hóa thường quan trọng hơn số tham số tuyệt đối.
Quên tính VRAM cho context dài
Context dài tiêu tốn KV cache. Ví dụ, context 32K token trên model 32B có thể cần thêm nhiều GB bộ nhớ. Đừng chỉ tính dung lượng model; hãy chừa bộ nhớ cho runtime và KV cache.
Dùng model tinh chỉnh không rõ nguồn
Model tinh chỉnh ngẫu nhiên có thể chứa hành vi không mong muốn hoặc rủi ro bảo mật. Với production, ưu tiên model gốc hoặc bản tinh chỉnh từ nguồn đáng tin cậy.
Không mock endpoint trong CI
Local model có thể crash, driver có thể lỗi, GPU có thể bị OOM. Nếu CI gọi trực tiếp model thật, test sẽ không ổn định. Mock endpoint bằng Apidog để tách test logic khỏi phần cứng.
Bỏ qua khác biệt về tool calling
Llama 5.1, Qwen 3.6 và DeepSeek V4 đều hỗ trợ gọi công cụ, nhưng format JSON có thể khác nhau. Trước khi đổi model trong production, hãy replay bộ prompt tool-calling và kiểm tra schema.
Các trường hợp sử dụng thực tế
Một startup vận hành agent hỗ trợ khách hàng đã chuyển từ GPT-5.5 sang Qwen 3.6 32B trên một GPU 4090. Độ trễ duy trì dưới 800 ms, chi phí suy luận hàng tháng giảm từ 9.400 USD xuống 0 USD, và team dùng mock trong Apidog để CI chạy ổn định.
Một developer độc lập xây voice assistant chạy Gemma 4 9B trên M2 Pro với 16 GB bộ nhớ hợp nhất. Multi-token prediction giúp đạt khoảng 60 token/giây, đủ nhanh để hội thoại có cảm giác tự nhiên.
Một nhóm nghiên cứu fintech chạy DeepSeek V4 Flash trên hai GPU 4090 để tóm tắt batch hồ sơ quy định vào ban đêm. Chi phí chính là điện và bảo trì phần cứng.
Checklist triển khai nhanh
-
Chọn model theo phần cứng:
- 24 GB VRAM: Qwen 3.6 32B hoặc DeepSeek V4 Flash.
- 8–16 GB: Llama 5.1 8B hoặc Gemma 4 9B.
- Phần cứng lớn: DeepSeek V4 Pro.
Chạy model:
ollama pull qwen3.6:32b
ollama serve
- Kiểm tra endpoint:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.6:32b",
"messages": [
{
"role": "user",
"content": "Viết ba gạch đầu dòng về lợi ích của LLM cục bộ."
}
],
"temperature": 0.2
}'
Tạo project trong Apidog.
Đặt base URL:
http://localhost:11434/v1
Lưu bộ request chuẩn.
Replay khi đổi model, đổi quantization hoặc đổi prompt.
Mock endpoint cho CI.
Kết luận
LLM cục bộ tốt nhất trong năm 2026 là model phù hợp với VRAM, latency budget và tiêu chuẩn chất lượng của sản phẩm. Với đa số team, lựa chọn thực tế là:
- Qwen 3.6 32B hoặc DeepSeek V4 Flash cho GPU 24 GB.
- Llama 5.1 8B hoặc Gemma 4 9B cho phần cứng nhỏ hơn.
- GLM 5.1 khi workload chính là tool calling hoặc structured extraction.
- DeepSeek V4 Pro khi bạn có phần cứng rất lớn và cần reasoning mạnh.
Năm điểm cần nhớ:
- Chất lượng local model đã đủ tốt cho nhiều workload production.
- Ollama là cách nhanh nhất để expose endpoint tương thích OpenAI.
- vLLM phù hợp hơn khi cần throughput và latency tốt hơn.
- Quantization quality quan trọng không kém kích thước model.
- Hãy xử lý local model như API production: lưu request, replay, mock, benchmark và tài liệu hóa.
Bước tiếp theo: chọn model phù hợp với phần cứng, chạy ollama pull <name>, rồi trỏ Apidog đến:
http://localhost:11434/v1
Bạn có thể bắt đầu gửi request, đo hiệu năng và replay prompt trong vòng một giờ.
FAQ
LLM cục bộ tốt nhất cho GPU 24 GB vào năm 2026 là gì?
Với đa số workload, chọn Qwen 3.6 32B ở Q4 hoặc DeepSeek V4 Flash ở Q4. Chọn Qwen nếu cần đa ngôn ngữ hoặc tool calling. Chọn DeepSeek V4 Flash nếu ưu tiên reasoning và lập trình. Xem thêm hướng dẫn cài đặt DeepSeek V4 cục bộ.
Tôi có thể chạy LLM cục bộ trên máy Mac không?
Có. Apple silicon với 16 GB bộ nhớ hợp nhất trở lên có thể chạy Llama 5.1 8B và Gemma 4 9B. M3 Ultra với 192 GB có thể chạy DeepSeek V4 Pro ở Q4. Dùng Ollama hoặc LM Studio để bắt đầu nhanh.
Làm cách nào để kiểm tra LLM cục bộ giống như kiểm tra OpenAI?
Dùng client tương thích OpenAI và đổi base_url sang endpoint local. Ollama expose:
http://localhost:11434/v1
vLLM thường expose:
http://localhost:8000/v1
Bạn cũng có thể trỏ project Apidog đến cùng URL để lưu request, replay và mock.
Chất lượng LLM cục bộ có ngang bằng hosted model không?
Với suy luận, lập trình, phân loại, trích xuất và gọi công cụ, các model mở hàng đầu đã tiến rất gần hosted model. Với thị giác, hỏi đáp tài liệu context dài và viết sáng tạo, hosted model vẫn thường có lợi thế.
Chi phí chạy local model thế nào?
Một GPU 4090 chạy DeepSeek V4 Flash chủ yếu tốn tiền điện và chi phí phần cứng ban đầu. Với workload đủ lớn, chi phí có thể thấp hơn đáng kể so với hosted inference. Điểm hòa vốn thường phụ thuộc vào số token mỗi tháng, giá điện và mức sử dụng GPU.
Làm cách nào để chuyển ứng dụng production giữa hosted model và local model?
Giữ nguyên OpenAI-compatible client. Chỉ đổi:
base_urlmodel
Sau đó replay bộ request chuẩn để phát hiện khác biệt hành vi trước khi triển khai. Chúng tôi đề cập thêm pattern này trong bài kiểm thử API không cần Postman.
Xem bảng xếp hạng mới nhất ở đâu?
Tham khảo:
Hai nguồn này đo các khía cạnh khác nhau, nên nên xem cả hai trước khi chọn model.




Top comments (0)