Hướng dẫn cài đặt và sử dụng Stable Diffusion 3.5 trên VPS GPU Windows
03/11/2025
Trong bối cảnh AI tạo sinh ngày càng trở thành “vũ khí” quan trọng của đội ngũ sáng tạo nội dung và studio thiết kế, Stable Diffusion 3.5 nổi bật nhờ chất lượng ảnh, khả năng hiểu ngữ cảnh và tốc độ vượt trội so với các phiên bản trước. Bài viết này hướng dẫn bạn cài đặt và sử dụng Stable Diffusion 3.5 trên VPS GPU chạy Windows — lựa chọn phù hợp khi bạn cần hiệu năng mạnh, làm việc từ xa qua RDP, và khả năng mở rộng linh hoạt mà không phải đầu tư máy trạm đắt đỏ.
Mục lục
Mục lục
1. Stable Diffusion là gì?
Stable Diffusion là mô hình AI tạo sinh (Generative AI) do Stability AI phát triển, có khả năng tạo hình ảnh từ mô tả văn bản (text-to-image) với chất lượng gần như chuyên nghiệp. Nó hoạt động bằng cách “khuếch tán ngược” từ nhiễu (noise) thành hình ảnh hoàn chỉnh dựa trên prompt người dùng.
Điểm mạnh của Stable Diffusion:
Mã nguồn mở (open source): Miễn phí, có thể cài trên mọi hệ điều hành (Windows, Linux, macOS, VPS GPU...).
Tùy biến cao: Có thể thêm model, checkpoint, LoRA, ControlNet, VAE, hoặc workflow qua các UI như ComfyUI, Automatic1111.
Không cần internet: Có thể chạy offline 100% nếu VPS đã cài đủ model.
Cộng đồng phát triển lớn: Hàng trăm ngàn model và workflow được chia sẻ trên Civitai, Hugging Face, GitHub.
Stable Diffusion 3.5 là phiên bản mới nhất của mô hình AI tạo sinh hình ảnh do Stability AI phát hành giữa năm 2025.
Đây là bản nâng cấp lớn của dòng Stable Diffusion 3, nổi bật với chất lượng hình ảnh, độ ổn định và khả năng hiểu ngữ cảnh vượt trội, được huấn luyện bằng mô hình text-to-image transformer lai diffusion tiên tiến.
Kết quả ấn tượng của Stable Diffusion 3.5 so với các model AI khác (nguồn: Stability.ai)
Điểm nổi bật của Stable Diffusion 3.5:
Hiểu ngữ cảnh tốt hơn: Có thể mô tả chi tiết các cảnh phức tạp, ánh sáng, và bố cục tự nhiên hơn nhiều so với SDXL.
Chất lượng hình ảnh cao: Hình ảnh có độ chi tiết, ánh sáng và màu sắc tự nhiên gần như Midjourney v6.
Tương thích tốt với ComfyUI: Hỗ trợ node graph, LoRA, ControlNet, T2I Adapter và AnimateDiff.
Tối ưu cho GPU RTX: Chạy hiệu quả nhất trên GPU ≥12GB VRAM (như RTX 3060, 4070, 4090, A5000).
Mở rộng dễ dàng: Cài thêm model hoặc checkpoint như sd3.5-large, sd3.5-medium, hoặc turbo để tăng tốc sinh ảnh.
2. Cấu hình VPS phù hợp để chạy Stable Diffusion 3.5
Thành phần
Tối thiểu để chạy SD 3.5
Khuyến nghị (mượt, ổn định)
GPU
NVIDIA GPU VRAM ≥ 8GB (RTX 2060 / A10G)
RTX 3060 / RTX 4070 / RTX 4090 / A5000
CPU
4 nhân trở lên
8–16 nhân (AMD Ryzen hoặc Xeon)
RAM
16GB
32GB trở lên nếu chạy ComfyUI nhiều node
Lưu trữ (SSD)
≥50GB (model SD3.5 ~18GB)
≥100GB (để lưu thêm model, LoRA, texture)
Hệ điều hành
Windows 10/11 hoặc Windows Server 2019+
Windows Server 2022 (64-bit)
Mạng
≥100 Mbps
≥1 Gbps để tải model nhanh hơn
Lưu ý: Stable Diffusion 3.5 yêu cầu VRAM cao hơn bản SDXL, do đó bạn nên chọn GPU ≥12GB nếu muốn render ảnh 1024×1024 hoặc video AI ổn định.
GPU và VRAM khuyến nghị cho mô hình SD 3.5 (nguồn: Stability.ai)
3. Hướng dẫn cài đặt Stable Diffusion trên Windows với ComfyUI
Bước 1: Truy cập vào VPS Windows
Đối với VPS Windows, các bạn truy cập vào ứng dụng Remote Desktop Connection có sẵn trên Windows, sau đó điền thông tin gồm IP, user và password để truy cập vào VPS.
Bước 2: Tải ComfyUI
Nếu các bạn đã từng local host những phiên bản Stable Diffusion trước đó thì có thể đã quen với giao diện AUTOMATIC1111. Tuy nhiên, hiện nay ComfyUI đã trở nên phù hợp hơn và hỗ trợ Stable Diffusion 3.5 tốt hơn (đặc biệt là các mô hình mới như SD 3 và SD 3.5). Chính Stability AI (công ty tạo ra Stable Diffusion) cũng khuyên dùng ComfyUI để chạy SD 3.5 bản đầy đủ. Dưới đây là hướng dẫn cài đặt chi tiết:
Đầu tiên ta cần tải ComfyUI tại đường dẫn sau, kéo xuống và chọn tải về tệp ComfyUI_windows_portable_nvidia.7z
Sau khi tải về xong ta tiến hành giải nén tệp, lưu ý nếu VPS GPU của bạn sử dụng Windows 10 sẽ cần cài thêm WinRAR để có thể giải nén file. Các bạn có thể truy cập đường dẫn sau để tải về WinRAR.
Bước 3: Tải Stable Diffusion 3.5
Ở đây ta tiến hành tải bản mới nhất hiện tại là Stable Diffusion 3.5 với mô hình large, các bạn có thể tùy theo cấu hình hệ thống của mình mà tải bản phù hợp.
Truy cập vào liên kết sau, đăng nhập hoặc đăng ký tài khoản, sau đó điền thông tin doanh nghiệp của bạn (nếu không có cứ điền đại thông tin doanh nghiệp bất kỳ) và đồng ý với điều khoản sử dụng model.
Tiếp theo truy cập vào mục Files and versions, kéo xuống tìm kiếm và tải xuống 2 file có tên SD3.5L_example_workflow.json và sd3.5_large.safetensors
Nếu các bạn vào link thấy báo không có quyền truy cập giống như trên đây, thì đó là do trước đó ta mới chỉ cung cấp thông tin và đồng ý với điều khoản sử dụng của bản SD 3.5 large, còn đường dẫn trên là đến repository của bản SD 3.5 medium nên ta sẽ cần cung cấp lại thông tin và xác nhận điều khoản sử dụng.
Sau đó ta truy cập lại link tải 3 file trên và tải xuống như bình thường.
Còn lý do vì sao lại phải truy cập vào repository của bản SD 3.5 medium là vì cả hai mô hình SD 3.5 Large và SD 3.5 Medium đều sử dụng chung một bộ 3 file text encoder (là 3 file clip_g, clip_l, và t5xxl_fp16) mà ta đang cần, tuy nhiên nó lại chỉ được đăng riêng lẻ trong repository của SD 3.5 Medium.
Bước 5: Tiến hành cài đặt Stable Diffusion 3.5
Lưu ý là bước này rất quan trọng nên các bạn cần làm thật cẩn thận theo hướng dẫn nhé.
Sau khi đã tiến hành tải xuống đầy đủ các file, ta tiến hành truy cập file ComfyUI_windows_portable_nvidia đã giải nén trước đó. Các bạn tìm đến thư mục checkpoints trong file ComfyUI_windows_portable_nvidia theo đường dẫn sau:
Tại đây ta paste vào thư mục file sd3.5_large.safetensors đã tải trước đó.
Sau đó ta tiếp tục truy cập vào thư mục clip tại đường dẫn sau, nó cũng nằm trong thư mục models giống với checkpoints nên bạn có thể back lại 1 folder là cũng nhìn thấy:
Tiếp theo ta paste 3 file clip đã tải ở bước 3 vào thư mục này.
Bước 6: Khởi chạy ComfyUI script
Ta trở lại thư mục ComfyUI_windows_portable, bạn sẽ thấy 2 file .bat này
Nếu bạn không có card Nvidia, hãy chạy file run_cpu.bat để sử dụng CPU, và chắc chắn là nó sẽ chậm hơn nhiều so với chạy bằng Nvidia GPU.
Còn nếu như máy bạn đã tích hợp sẵn card đồ họa Nvidia thì hãy chạy file run_nvidia_gpu.bat để sử dụng GPU, kích đúp và chờ vài phút để hệ thống tiến hành cài đặt.
Sau khi file script chạy xong thì bảng điều khiển control panel của Stable Diffusion sẽ hiện lên, ta kéo thả file workflow mẫu SD3.5L_example_workflow.json đã tải trước đó ở bước 3 vào ngay giao diện control panel đó để có thể sử dụng nhanh.
Trong mục TripleCLIPLoader, chọn lại đúng tên các file clip mà bạn đã tải trước đó.
Như vậy là chúng ta đã tiến hành cài đặt local host cho Stable Diffusion thành công!
4. Hướng dẫn nhanh cách sử dụng Stable Diffusion
Điền prompt của bạn vào mục CLIP Text Encode (Prompt)
Ngoài ra các bạn cũng có thể tùy chỉnh một vài thông số như kích thước ảnh tại mục EmptySD3LatentImage, lưu ý kích thước ảnh cần là bội số của 64.
Sau khi điền thông tin xong thì các bạn nhấn Queue Prompt ở góc bên phải màn hình, hoặc có thể là Queue tùy theo phiên bản giao diện ComfyUI.
Chờ đôi chút là các bạn sẽ thấy ảnh được generated ra ở mục Preview Image, tốc độ tạo ảnh sẽ phụ thuộc vào cấu hình máy của bạn. Đối với GPU RTX 5880 trong gói VPS GPU của TotHost, thời gian tạo ảnh trong khoảng ~28s.
Có thể thấy kết quả tạo ra cũng khá ấn tượng, và tuyệt vời nhất là nó hoàn toàn miễn phí và không giới hạn số lần tạo ảnh và số lượt tải xuống! Chất lượng ảnh thì siêu nét khỏi phải bàn.
5. Kết luận
Trên đây là hướng dẫn chi tiết về việc lựa chọn cấu hình phù hợp, cách cài đặt và sử dụng Stable Diffusion 3.5 trên VPS GPU cài hệ điều hành Windows. Nếu bạn cần một hạ tầng VPS GPU tối ưu sẵn cho Stable Diffusion 3.5, hỗ trợ nhanh và khả năng nâng cấp linh hoạt, hãy cân nhắc các gói dịch vụ tại TotHost để bắt đầu ngay hôm nay.
Ngoài ra nếu bạn đang muốn tìm hiểu để xây dựng chuỗi workflow tự động hóa với AI có thể tham khảo thêm một số bài viết sau:
Q1: Stable Diffusion 3.5 khác gì so với bản SDXL trước đây?
Bản 3.5 có khả năng hiểu prompt tốt hơn, sinh chi tiết khuôn mặt và ánh sáng tự nhiên hơn, đồng thời chạy nhanh hơn ~30% nhờ tối ưu transformer hybrid.
Q2: VPS có cần cài driver CUDA riêng để chạy SD 3.5 không?
Có. Bạn cần cài NVIDIA CUDA Toolkit (phiên bản ≥12.1) và cuDNN tương thích để tránh lỗi khi khởi chạy ComfyUI.
Q3: Tôi có thể dùng model cũ (SDXL 1.0 hoặc 1.5) trong SD 3.5 không?
Có thể, nhưng bạn cần đảm bảo đúng định dạng checkpoint và VAE. Một số model cũ có thể cần convert trước khi dùng.
Q4: SD 3.5 chạy tốt nhất với phần mềm nào?
ComfyUI hiện là giao diện tối ưu nhất cho SD 3.5, hỗ trợ node graph, ControlNet, AnimateDiff và custom LoRA.
Q5: Tôi nên chọn GPU nào nếu chỉ dùng để tạo ảnh 1K–2K?
RTX 4070 12GB hoặc RTX 4090 24GB là lựa chọn tối ưu giữa giá và hiệu năng, cho phép chạy SD 3.5 mượt ở batch size 2–4
Khi sử dụng hệ điều hành Windows trên VPS, ban đầu bạn có thể không tải xuống được bất kỳ tệp nào bằng Internet Explorer. Điều này xảy ra do tính năng Tải xuống của trình duyệt chưa được bật. Bài viết này sẽ hướng dẫn bạn cách bật tính năng Tải xuống để bạn có thể tải xuống phần mềm khi sử dụng máy chủ.
Ngày, giờ và múi giờ là những yếu tố quan trọng của hệ thống Linux, có tác động đến cách hệ thống vận hành và tương tác với các hệ thống khác. Có nhiều phương pháp để hiển thị và điều chỉnh những cài đặt này trên Linux, tùy theo phân phối (distribution) và các công cụ sẵn có. Dưới đây là hướng dẫn chi tiết về cách hiển thị ngày giờ hiện tại, thay đổi ngày giờ và thiết lập múi giờ trên Linux bằng giao diện dòng lệnh.
Ngôn ngữ mặc định của hệ thống Win10 là tiếng Anh, trong quá trình sử dụng bạn có thể thay đổi sang ngôn ngữ khác như tiếng Việt, tiếng Trung… theo mong muốn. Tại bài viết này, TotHost sẽ hướng dẫn bạn cách thay đổi ngôn ngữ trên Wins 10 đơn giản và chi tiết nhất.
Việc thay đổi mật khẩu là biện pháp quan trọng để tăng cường bảo mật và tránh được những rủi ro không mong muốn. Do đó, bước đầu tiên nên làm sau khi đăng ký dịch vụ là đổi mật khẩu. Bạn hãy làm theo hướng dẫn của TotHost để thay đổi mật khẩu trên server Linux nhé!