Hướng dẫn cài đặt và sử dụng Stable Diffusion 3.5 trên VPS GPU Windows

Trong bối cảnh AI tạo sinh ngày càng trở thành “vũ khí” quan trọng của đội ngũ sáng tạo nội dung và studio thiết kế, Stable Diffusion 3.5 nổi bật nhờ chất lượng ảnh, khả năng hiểu ngữ cảnh và tốc độ vượt trội so với các phiên bản trước. Bài viết này hướng dẫn bạn cài đặt và sử dụng Stable Diffusion 3.5 trên VPS GPU chạy Windows — lựa chọn phù hợp khi bạn cần hiệu năng mạnh, làm việc từ xa qua RDP, và khả năng mở rộng linh hoạt mà không phải đầu tư máy trạm đắt đỏ.

Mục lục

1. Stable Diffusion là gì?

Stable Diffusion là mô hình AI tạo sinh (Generative AI) do Stability AI phát triển, có khả năng tạo hình ảnh từ mô tả văn bản (text-to-image) với chất lượng gần như chuyên nghiệp.
Nó hoạt động bằng cách “khuếch tán ngược” từ nhiễu (noise) thành hình ảnh hoàn chỉnh dựa trên prompt người dùng.

Điểm mạnh của Stable Diffusion:

Mã nguồn mở (open source): Miễn phí, có thể cài trên mọi hệ điều hành (Windows, Linux, macOS, VPS GPU...).
Tùy biến cao: Có thể thêm model, checkpoint, LoRA, ControlNet, VAE, hoặc workflow qua các UI như ComfyUI, Automatic1111.
Không cần internet: Có thể chạy offline 100% nếu VPS đã cài đủ model.
Cộng đồng phát triển lớn: Hàng trăm ngàn model và workflow được chia sẻ trên Civitai, Hugging Face, GitHub.

Stable Diffusion 3.5 là phiên bản mới nhất của mô hình AI tạo sinh hình ảnh do Stability AI phát hành giữa năm 2025.

Đây là bản nâng cấp lớn của dòng Stable Diffusion 3, nổi bật với chất lượng hình ảnh, độ ổn định và khả năng hiểu ngữ cảnh vượt trội, được huấn luyện bằng mô hình text-to-image transformer lai diffusion tiên tiến.

Kết quả ấn tượng của Stable Diffusion 3.5 so với các model AI khác (nguồn: Stability.ai)

Điểm nổi bật của Stable Diffusion 3.5:

Hiểu ngữ cảnh tốt hơn: Có thể mô tả chi tiết các cảnh phức tạp, ánh sáng, và bố cục tự nhiên hơn nhiều so với SDXL.
Chất lượng hình ảnh cao: Hình ảnh có độ chi tiết, ánh sáng và màu sắc tự nhiên gần như Midjourney v6.
Tương thích tốt với ComfyUI: Hỗ trợ node graph, LoRA, ControlNet, T2I Adapter và AnimateDiff.
Tối ưu cho GPU RTX: Chạy hiệu quả nhất trên GPU ≥12GB VRAM (như RTX 3060, 4070, 4090, A5000).
Mở rộng dễ dàng: Cài thêm model hoặc checkpoint như sd3.5-large, sd3.5-medium, hoặc turbo để tăng tốc sinh ảnh.

2. Cấu hình VPS phù hợp để chạy Stable Diffusion 3.5

Thành phần	Tối thiểu để chạy SD 3.5	Khuyến nghị (mượt, ổn định)
GPU	NVIDIA GPU VRAM ≥ 8GB (RTX 2060 / A10G)	RTX 3060 / RTX 4070 / RTX 4090 / A5000
CPU	4 nhân trở lên	8–16 nhân (AMD Ryzen hoặc Xeon)
RAM	16GB	32GB trở lên nếu chạy ComfyUI nhiều node
Lưu trữ (SSD)	≥50GB (model SD3.5 ~18GB)	≥100GB (để lưu thêm model, LoRA, texture)
Hệ điều hành	Windows 10/11 hoặc Windows Server 2019+	Windows Server 2022 (64-bit)
Mạng	≥100 Mbps	≥1 Gbps để tải model nhanh hơn

Lưu ý: Stable Diffusion 3.5 yêu cầu VRAM cao hơn bản SDXL, do đó bạn nên chọn GPU ≥12GB nếu muốn render ảnh 1024×1024 hoặc video AI ổn định.

GPU và VRAM khuyến nghị cho mô hình SD 3.5 (nguồn: Stability.ai)

3. Hướng dẫn cài đặt Stable Diffusion trên Windows với ComfyUI

Bước 1: Truy cập vào VPS Windows

Đối với VPS Windows, các bạn truy cập vào ứng dụng Remote Desktop Connection có sẵn trên Windows, sau đó điền thông tin gồm IP, user và password để truy cập vào VPS.

Truy cập vào VPS Windows

Bước 2: Tải ComfyUI

Nếu các bạn đã từng local host những phiên bản Stable Diffusion trước đó thì có thể đã quen với giao diện AUTOMATIC1111. Tuy nhiên, hiện nay ComfyUI đã trở nên phù hợp hơn và hỗ trợ Stable Diffusion 3.5 tốt hơn (đặc biệt là các mô hình mới như SD 3 và SD 3.5). Chính Stability AI (công ty tạo ra Stable Diffusion) cũng khuyên dùng ComfyUI để chạy SD 3.5 bản đầy đủ. Dưới đây là hướng dẫn cài đặt chi tiết:

Đầu tiên ta cần tải ComfyUI tại đường dẫn sau, kéo xuống và chọn tải về tệp ComfyUI_windows_portable_nvidia.7z

Tải ComfyUI

Sau khi tải về xong ta tiến hành giải nén tệp, lưu ý nếu VPS GPU của bạn sử dụng Windows 10 sẽ cần cài thêm WinRAR để có thể giải nén file. Các bạn có thể truy cập đường dẫn sau để tải về WinRAR.

Bước 3: Tải Stable Diffusion 3.5

Ở đây ta tiến hành tải bản mới nhất hiện tại là Stable Diffusion 3.5 với mô hình large, các bạn có thể tùy theo cấu hình hệ thống của mình mà tải bản phù hợp.

Truy cập vào liên kết sau, đăng nhập hoặc đăng ký tài khoản, sau đó điền thông tin doanh nghiệp của bạn (nếu không có cứ điền đại thông tin doanh nghiệp bất kỳ) và đồng ý với điều khoản sử dụng model.

Điền thông tin doanh nghiệp để truy cập vào model SD 3.5

Tiếp theo truy cập vào mục Files and versions, kéo xuống tìm kiếm và tải xuống 2 file có tên SD3.5L_example_workflow.json và sd3.5_large.safetensors

Tải xuống SD3.5L_example_workflow.json và sd3.5_large.safetensors

Bước 4: Tải Clip Files

Ta tiến hành tải xuống 3 file sau:

clip_g.safetensors

clip_l.safetensors

t5xxl_fp16.safetensors

Nếu bạn có ít RAM thì có thể cài clip model t5xxl_fp8_e4m3fn.safetensors thay cho bản fp16.

Truy cập bị từ chối vì chưa cung cấp thông tin cho mô hình SD 3.5 medium

Nếu các bạn vào link thấy báo không có quyền truy cập giống như trên đây, thì đó là do trước đó ta mới chỉ cung cấp thông tin và đồng ý với điều khoản sử dụng của bản SD 3.5 large, còn đường dẫn trên là đến repository của bản SD 3.5 medium nên ta sẽ cần cung cấp lại thông tin và xác nhận điều khoản sử dụng.

Ta truy cập đến đường dẫn sau để điền lại thông tin:

Cung cấp thông tin cho mô hình SD 3.5 medium

Sau đó ta truy cập lại link tải 3 file trên và tải xuống như bình thường.

Còn lý do vì sao lại phải truy cập vào repository của bản SD 3.5 medium là vì cả hai mô hình SD 3.5 Large và SD 3.5 Medium đều sử dụng chung một bộ 3 file text encoder (là 3 file clip_g, clip_l, và t5xxl_fp16) mà ta đang cần, tuy nhiên nó lại chỉ được đăng riêng lẻ trong repository của SD 3.5 Medium.

Bước 5: Tiến hành cài đặt Stable Diffusion 3.5

Lưu ý là bước này rất quan trọng nên các bạn cần làm thật cẩn thận theo hướng dẫn nhé.

Các files cần tải xuống

Sau khi đã tiến hành tải xuống đầy đủ các file, ta tiến hành truy cập file ComfyUI_windows_portable_nvidia đã giải nén trước đó. Các bạn tìm đến thư mục checkpoints trong file ComfyUI_windows_portable_nvidia theo đường dẫn sau:

ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\ComfyUI\models\checkpoints

Tại đây ta paste vào thư mục file sd3.5_large.safetensors đã tải trước đó.

copy file sd3.5_large.safetensors vào thư mục checkpoints

Sau đó ta tiếp tục truy cập vào thư mục clip tại đường dẫn sau, nó cũng nằm trong thư mục models giống với checkpoints nên bạn có thể back lại 1 folder là cũng nhìn thấy:

ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\ComfyUI\models\clip

Tiếp theo ta paste 3 file clip đã tải ở bước 3 vào thư mục này.

copy 3 files clip đã tải vào thư mục clip

Bước 6: Khởi chạy ComfyUI script

Ta trở lại thư mục ComfyUI_windows_portable, bạn sẽ thấy 2 file .bat này

2 file .bat trong thư mục ComfyUI_windows_portable

Nếu bạn không có card Nvidia, hãy chạy file run_cpu.bat để sử dụng CPU, và chắc chắn là nó sẽ chậm hơn nhiều so với chạy bằng Nvidia GPU.

chạy file run_nvidia_gpu.bat để sử dụng GPU

Còn nếu như máy bạn đã tích hợp sẵn card đồ họa Nvidia thì hãy chạy file run_nvidia_gpu.bat để sử dụng GPU, kích đúp và chờ vài phút để hệ thống tiến hành cài đặt.

control panel của Stable Diffusion

Sau khi file script chạy xong thì bảng điều khiển control panel của Stable Diffusion sẽ hiện lên, ta kéo thả file workflow mẫu SD3.5L_example_workflow.json đã tải trước đó ở bước 3 vào ngay giao diện control panel đó để có thể sử dụng nhanh.

chọn lại đúng tên các file clip

Trong mục TripleCLIPLoader, chọn lại đúng tên các file clip mà bạn đã tải trước đó.

Như vậy là chúng ta đã tiến hành cài đặt local host cho Stable Diffusion thành công!

4. Hướng dẫn nhanh cách sử dụng Stable Diffusion

Điền prompt của bạn vào mục CLIP Text Encode (Prompt)

Điền prompt của bạn vào mục CLIP Text Encode (Prompt)

Ngoài ra các bạn cũng có thể tùy chỉnh một vài thông số như kích thước ảnh tại mục EmptySD3LatentImage, lưu ý kích thước ảnh cần là bội số của 64.

tùy chỉnh một vài thông số như kích thước ảnh tại mục EmptySD3LatentImage

Sau khi điền thông tin xong thì các bạn nhấn Queue Prompt ở góc bên phải màn hình, hoặc có thể là Queue tùy theo phiên bản giao diện ComfyUI.

nhấn Queue Prompt để tạo ảnh

Chờ đôi chút là các bạn sẽ thấy ảnh được generated ra ở mục Preview Image, tốc độ tạo ảnh sẽ phụ thuộc vào cấu hình máy của bạn. Đối với GPU RTX 5880 trong gói VPS GPU của TotHost, thời gian tạo ảnh trong khoảng ~28s.

kết quả tạo ảnh bằng SD 3.5

Có thể thấy kết quả tạo ra cũng khá ấn tượng, và tuyệt vời nhất là nó hoàn toàn miễn phí và không giới hạn số lần tạo ảnh và số lượt tải xuống! Chất lượng ảnh thì siêu nét khỏi phải bàn.

5. Kết luận

Trên đây là hướng dẫn chi tiết về việc lựa chọn cấu hình phù hợp, cách cài đặt và sử dụng Stable Diffusion 3.5 trên VPS GPU cài hệ điều hành Windows. Nếu bạn cần một hạ tầng VPS GPU tối ưu sẵn cho Stable Diffusion 3.5, hỗ trợ nhanh và khả năng nâng cấp linh hoạt, hãy cân nhắc các gói dịch vụ tại TotHost để bắt đầu ngay hôm nay.

Ngoài ra nếu bạn đang muốn tìm hiểu để xây dựng chuỗi workflow tự động hóa với AI có thể tham khảo thêm một số bài viết sau:

Tự Động Hóa Quy Trình Chuyên Sâu Với n8n: Hướng Dẫn Cài Đặt Và Sử Dụng Chi Tiết

Hướng dẫn chi tiết kết nối API Google với n8n

FAQ

Q1: Stable Diffusion 3.5 khác gì so với bản SDXL trước đây?

Bản 3.5 có khả năng hiểu prompt tốt hơn, sinh chi tiết khuôn mặt và ánh sáng tự nhiên hơn, đồng thời chạy nhanh hơn ~30% nhờ tối ưu transformer hybrid.

Q2: VPS có cần cài driver CUDA riêng để chạy SD 3.5 không?

Có. Bạn cần cài NVIDIA CUDA Toolkit (phiên bản ≥12.1) và cuDNN tương thích để tránh lỗi khi khởi chạy ComfyUI.

Q3: Tôi có thể dùng model cũ (SDXL 1.0 hoặc 1.5) trong SD 3.5 không?

Có thể, nhưng bạn cần đảm bảo đúng định dạng checkpoint và VAE. Một số model cũ có thể cần convert trước khi dùng.

Q4: SD 3.5 chạy tốt nhất với phần mềm nào?

ComfyUI hiện là giao diện tối ưu nhất cho SD 3.5, hỗ trợ node graph, ControlNet, AnimateDiff và custom LoRA.

Q5: Tôi nên chọn GPU nào nếu chỉ dùng để tạo ảnh 1K–2K?

RTX 4070 12GB hoặc RTX 4090 24GB là lựa chọn tối ưu giữa giá và hiệu năng, cho phép chạy SD 3.5 mượt ở batch size 2–4