Cách chạy Stable Video Diffusion img2vid

Stable Video Diffusion là gì
Sử dụng Stable Video Diffusion trên Colab
Sử dụng Stable Video Diffusion với ComfyUI
Cài đặt Stable Video Diffusion trên Windows
Tài nguyên

Stable Video Diffusion là mô hình Stable Diffusion đầu tiên được thiết kế để tạo video. Bạn có thể sử dụng nó để tạo hiệu ứng hình ảnh động được tạo ra bởi Stable Diffusion, tạo ra hiệu ứng hình ảnh tuyệt đẹp.

Sau đây là một số video mẫu:

Realistic Egyptian princess

https://stable-diffusion-art.com/wp-content/uploads/2023/11/060b3b1a23282c2811b4984c06087a12827316242103d23f161fe86f.mp4

Biomechanical animal

https://stable-diffusion-art.com/wp-content/uploads/2023/11/tiger.mp4

Castle in Fall

https://stable-diffusion-art.com/wp-content/uploads/2023/11/f26f4f5d8a1cc09c8f28eaea0fb78393915ab7686fea1be551384b4e-1.mp4

Trong bài viết này, bạn sẽ tìm hiểu về

Stable Video Diffusion là gì?
Cách sử dụng trên Google Colab trực tuyến.
Cách sử dụng quy trình chuyển đổi văn bản thành video trong ComfyUI.
Cách cài đặt và sử dụng cục bộ trên Windows.

Stable Video Diffusion là gì

Stable Video Diffusion (SVD) là mô hình video nền tảng đầu tiên được Stability AI, người tạo ra Stable Diffusion, phát hành. Đây là mô hình mã nguồn mở, với mã và trọng số mô hình có sẵn miễn phí.

Nó làm gì

SVD là mô hình chuyển đổi hình ảnh thành video (img2vid). Bạn cung cấp khung hình đầu tiên và mô hình sẽ tạo ra một đoạn video clip ngắn. Dưới đây là ví dụ về đầu vào và đầu ra của mô hình.

Stable Video Diffusion

https://stable-diffusion-art.com/wp-content/uploads/2023/11/000003.mp4

Mô hình và đào tạo

Mô hình và đào tạo được mô tả trong bài viết Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Dataset (2023) của Andreas Blattmann và các cộng sự.

Mô hình SVD đã trải qua 3 giai đoạn đào tạo.

Đào tạo mô hình hình ảnh.
Mở rộng mô hình hình ảnh thành mô hình video , sau đó được đào tạo trước với bộ dữ liệu video lớn.
Tinh chỉnh mô hình video bằng tập dữ liệu video chất lượng cao nhỏ hơn.

Việc tuyển chọn và cải thiện bộ dữ liệu là chìa khóa thành công của mô hình video.

Mô hình hình ảnh là Stable Diffusion 2.1, tiền thân bị lãng quên của mô hình SDXL. Mô hình hình ảnh được đào tạo trước tạo thành xương sống hình ảnh của mô hình video.

Các lớp tích chập thời gian và chú ý được thêm vào bộ ước tính nhiễu U-Net để tạo mô hình video. Bây giờ, tenxơ tiềm ẩn biểu diễn video thay vì hình ảnh. Tất cả các khung hình đều được khử nhiễu bằng khuếch tán ngược cùng một lúc. Mô hình khuếch tán thời gian này giống với mô hình VideoLDM.

Stable Video Diffusion

Mô hình video có 1,5B tham số và được đào tạo bằng một tập dữ liệu video lớn. Cuối cùng, mô hình video được tinh chỉnh bằng một tập dữ liệu nhỏ hơn nhưng chất lượng cao hơn.

Stable Stable Video Models weights

Có hai trọng số mô hình SVD được công bố rộng rãi.

SVD – được đào tạo để tạo ra 14 khung hình ở độ phân giải 576×1024.
SVD XT – được đào tạo để tạo ra 25 khung hình ở độ phân giải 576×1024.

Trong bài viết này, chúng tôi sẽ tập trung vào việc sử dụng mô hình SVD XT.

Các thông số mô hình

Dưới đây là danh sách các thông số quan trọng kiểm soát đầu ra video.

Motion bucket id

Motion bucket id kiểm soát lượng chuyển động trong video. Giá trị càng cao thì chuyển động càng nhiều. Chấp nhận giá trị từ 0 đến 255.

FPS

Tham số khung hình trên giây (fps) kiểm soát số khung hình mà mô hình tạo ra. Giữ trong khoảng từ 5 đến 30 để có hiệu suất tối ưu.

Mức độ tăng cường (Augmentation level)

Mức tăng cường là lượng nhiễu được thêm vào hình ảnh ban đầu. Sử dụng mức này để thay đổi hình ảnh ban đầu nhiều hơn hoặc khi tạo video lệch khỏi kích thước mặc định.

Hiệu suất của Stable Video Diffusion so với các mô hình video AI khác như thế nào?

Stability AI đã tự thực hiện nghiên cứu sâu rộng và so sánh mô hình tạo video của mình với các công cụ khác. Theo nghiên cứu, Stable Video Diffusion được so sánh với các mô hình như Runway và Pika Labs.

Stable Video Diffusion

Model	Strength	Weakness
Stable Video Diffusion	Kết quả thực tế và mạch lạc, phù hợp cho video ngắn từ hình ảnh tĩnh	Chiều dài hạn chế, chất lượng thay đổi, khả năng sáng tạo hạn chế
Google Video Diffusion	Có thể tạo video dài hơn, tốt cho việc tạo văn bản thành video	Có thể tạo ra lỗi, cần phải tinh chỉnh (không ổn định lắm)
DALL-E 2	Rất sáng tạo và thử nghiệm	Có thể kém ổn định hơn
Runway ML	Dễ sử dụng và tốt cho người mới bắt đầu	Khả năng hạn chế và không mạnh bằng các mẫu khác
Pika Labs	Mã nguồn mở	Cơ sở người dùng hạn chế, vẫn đang trong quá trình phát triển

Yêu cầu tính toán để chạy Stable Video Diffusion là gì?

Sau đây là một số yêu cầu để chạy Stable Video Diffusion:

Yêu cầu	Tối thiểu	Khuyến khích
Bộ xử lý đồ họa	Bộ nhớ RAM 6GB	10 GB VRAM (hoặc cao hơn)
Bộ vi xử lý	4 core	8 lõi (hoặc cao hơn)
RAM	16GB	32GB (hoặc cao hơn)
Storage	10GB	20GB (hoặc cao hơn)

Ngoài ra, bạn nên cài đặt Python 3.10 (hoặc cao hơn) trên hệ thống của mình trước.

Sử dụng Stable Video Diffusion trên Colab

Bạn cần card GPU NVidia VRAM cao để chạy Stable Video Diffusion cục bộ. Nếu bạn không có, lựa chọn tốt nhất là Google Colab trực tuyến. Máy tính xách tay hoạt động với tài khoản miễn phí.

Bước 1: Mở Sổ tay Colab

Đi đến trang GitHub của sổ tay Colab. Cho tôi một ngôi sao (Được rồi, tùy chọn này là tùy chọn…). Nhấp vào biểu tượng Open in Colab để mở sổ tay.

Đây là liên kết trực tiếp đến sổ tay.

Bước 2: Xem lại tùy chọn sổ ghi chép

Cài đặt mặc định là tốt. Nhưng bạn có thể tùy chọn không lưu video cuối cùng vào Google Drive của mình.

Stable Video Diffusion

Bước 3: Chạy sổ ghi chép

Nhấp vào nút chạy để bắt đầu chạy sổ ghi chép.

Bước 4: Khởi động GUI

Sau khi tải xong, bạn sẽ thấy liên kết gradio.live . Nhấp vào liên kết để bắt đầu GUI.

Bước 5: Tải lên hình ảnh ban đầu

Thả một hình ảnh bạn muốn sử dụng làm khung hình đầu tiên của video.

Điều chỉnh độ lệch cắt (crop offset) để điều chỉnh vị trí cắt.

Stable Video Diffusion

Bước 6: Bắt đầu tạo video

Nhấp vào Run để bắt đầu tạo video. Video sẽ xuất hiện trên GUI khi hoàn tất.

https://stable-diffusion-art.com/wp-content/uploads/2023/11/000003.mp4

Mất khoảng 9 phút trên GPU T4 (tài khoản miễn phí) và 2 phút trên GPU V100.

Tùy chỉnh video của bạn

Bạn có thể tăng thông số ID Motion Bucket trong cài đặt nâng cao để tăng chuyển động trong video.

Sử dụng một số nguyên cố định cho tham số hạt giống (seed) để tạo ra cùng một video.

Sử dụng Stable Video Diffusion với ComfyUI

ComfyUI hiện hỗ trợ các mô hình Stable Video Diffusion SVD. Thực hiện theo các bước dưới đây để cài đặt và sử dụng quy trình làm việc text-to-video (txt2vid). Nó tạo ra hình ảnh ban đầu bằng mô hình Stable Diffusion XL và một đoạn video clip bằng mô hình SVD XT.

Đọc hướng dẫn cài đặt ComfyUI và hướng dẫn dành cho người mới bắt đầu sử dụng ComfyUI nếu bạn mới sử dụng ComfyUI.

Nếu bạn sử dụng sổ tay ComfyUI Colab của tôi , hãy chọn các mẫu Stable_Video_Diffusion và SDXL_1 trước khi chạy sổ tay.

Stable Video Diffusion

Bước 1: Tải quy trình làm việc chuyển văn bản thành video

Tải xuống quy trình làm việc ComfyUI bên dưới.

Stable Video Diffusion

Donwload

Kéo và thả nó vào ComfyUI.

Bước 2: Cập nhật ComfyUI

Cập nhật ComfyUI, cài đặt các nút tùy chỉnh bị thiếu và cập nhật tất cả các nút tùy chỉnh. Sử dụng trình quản lý ComfyUI sẽ giúp bước này dễ dàng hơn.

Khởi động lại ComfyUI hoàn toàn và tải lại quy trình làm việc văn bản thành video. ComfyUI sẽ không có khiếu nại nào nếu mọi thứ được cập nhật chính xác.

Bước 3: Tải xuống mô hình

Tải xuống mô hình SVD XT. Đặt nó vào thư mục ComfyUI > models > checkpoints.

Làm mới trang ComfyUI và chọn mô hình SVD_XT trong nút Image Only Checkpoint Loader.

Stable Video Diffusion

Quy trình làm việc sử dụng mô hình SDXL 1.0. Tải xuống mô hình nếu bạn chưa tải. Đặt nó vào thư mục ComfyUI > models > checkpoints.

Làm mới trang ComfyUI và chọn mô hình SDXL trong nút Load Checkpoint.

Stable Video Diffusion

Bước 4: Chạy quy trình làm việc

Nhấp vào Queue Prompt để chạy quy trình làm việc. Một video sẽ được tạo ra.

Các tham số

video_frame: Số khung hình. Giữ nguyên ở mức 25 vì đây là số khung hình mà mô hình được đào tạo.

motion_bucket_id: Kiểm soát lượng chuyển động trong video. Giá trị càng cao thì chuyển động càng nhiều.

fps: Khung hình mỗi giây.

Augmentation_level: Lượng nhiễu được thêm vào hình ảnh ban đầu. Càng cao, video càng khác so với khung hình ban đầu. Tăng khi bạn sử dụng kích thước video khác với kích thước mặc định.

min_cfg: Đặt tỷ lệ CFG ở đầu video. Tỷ lệ CFG thay đổi tuyến tính theo giá trị cfg được xác định trong nút KSampler ở cuối video. Trong ví dụ này, min_cfg được đặt thành 1.0 và cfg được đặt thành 2.5. Tỷ lệ CFG là 1.0 cho khung hình đầu tiên, 2.5 cho khung hình cuối cùng và thay đổi tuyến tính ở giữa. Càng xa khung hình đầu tiên, tỷ lệ CFG càng cao.

Cài đặt Stable Video Diffusion trên Windows

Bạn có thể chạy Stable Video Difusion cục bộ nếu bạn có card GPU RAM cao. Quy trình cài đặt sau đây được thử nghiệm với card RTX4090 24GB.

Rất khó để cài đặt phần mềm này cục bộ. Bạn có thể gặp phải các vấn đề không được mô tả trong phần này. Vì vậy, chỉ tiến hành nếu bạn am hiểu công nghệ hoặc muốn…

Bạn sẽ cần git và Python 3.10 để cài đặt và sử dụng phần mềm. Xem hướng dẫn cài đặt Stable Diffusion để biết các bước cài đặt.

Bước 1: Sao chép kho lưu trữ

Mở ứng dụng PowerShell. KHÔNG sử dụng Command Prompt (cmd). Nó sẽ không hoạt động với các hướng dẫn này.

Để mở ứng dụng PowerShell, hãy nhấn phím Windows và tìm kiếm “PowerShell”. Nhấp vào ứng dụng Windows PowerShell để bắt đầu.

Stable Video Diffusion

Trước khi bắt đầu, hãy xác nhận bạn có Python 3.10 bằng cách chạy lệnh sau.

python --version

Bạn có thể tiếp tục nếu nó hiển thị “Python 3.10.x”.

Bạn có thể thay đổi thư mục đến nơi bạn muốn cài đặt phần mềm.

git clone https://github.com/Stability-AI/generative-models

Bước 2: Tạo môi trường ảo

Vào thư mục vừa được sao chép.

cd generative-models

Tạo môi trường ảo.

python -m venv venv

Bạn sẽ thấy thư mục có tên venv được tạo.
Kích hoạt môi trường ảo.

.\venv\Scripts\Activate.ps1

Nếu lệnh này thành công, bạn sẽ thấy (venv) ở phía trước dấu nhắc lệnh. Điều này cho biết bạn hiện đang ở trong môi trường ảo.

Bạn phải ở trong môi trường ảo khi cài đặt hoặc chạy phần mềm.

Nếu bạn không thấy nhãn (venv) ở bước sau, hãy chạy tập lệnh activate.ps1 để vào môi trường ảo.

Bước 3: Xóa gói triton trong yêu cầu

Trong ứng dụng File Explorer, điều hướng đến thư mục generative-models > requirements.

Mở tệp yêu cầu pt2.txt bằng ứng dụng Notepad.

Xóa dòng “triton==2.0.0”. Điều này không thực sự cần thiết và sẽ gây ra lỗi trong Windows.

Lưu và đóng tệp.

Bước 4: Cài đặt các thư viện cần thiết

Quay lại ứng dụng PowerShell. Đảm bảo bạn vẫn thấy nhãn (venv).

Chạy lệnh sau để cài đặt PyTorch.

pip3 install torch==2.0.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Chạy lệnh sau để cài đặt các thư viện cần thiết.

pip3 install -r .\requirements\pt2.txt

Chạy lệnh sau để cài đặt phần mềm mô hình tạo sinh.

pip3 install .

Chạy lệnh sau để cài đặt thư viện cần thiết.

pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

Bước 5: Tải xuống mô hình video

Trong ứng dụng File Explorer, hãy điều hướng đến thư mục generative-models và tạo một thư mục có tên là “checkpoints”.

Điều hướng đến thư mục generative-models > checkpoints.

Tải xuống mô hình safetensors (svd_xt.safetensors) và đặt nó vào thư mục mô hình điểm kiểm tra.

Bước 6: Chạy GUI

Quay lại ứng dụng PowerShell. Bạn sẽ ở trong thư mục generative-models và trong môi trường ảo.

Chạy lệnh sau để thiết lập đường dẫn Python.

$ENV:PYTHONPATH=$PWD

Chạy lệnh sau để khởi động GUI.

streamlit run scripts/demo/video_sampling.py

Một trang web mới sẽ được mở. Nếu không, hãy xem bản in của thiết bị đầu cuối PowerApp. Đi đến URL cục bộ. Nó sẽ giống như thế này:

http://localhost:8501

Bước 7: Tạo video

Trong menu thả xuống Model Version, chọn svd_xt.

Nhấp vào hộp kiểm Load Model.

Stable Video Diffusion

Hãy chú ý đến lỗi của thiết bị đầu cuối PowerShell.

Nó có thể hiển thị thông báo lỗi trong GUI. Nhưng không sao miễn là phần Input mới xuất hiện.

Stable Video Diffusion

Thả một hình ảnh làm khung ban đầu vào hộp Input.

Cuộn xuống và tìm trường Decode t frames at a time. Đặt thành 1.

Stable Video Diffusion

Nhấp vào Sample để bắt đầu tạo video.

Theo dõi tiến trình trên thiết bị đầu cuối PowerShell.

Khi hoàn tất, video sẽ hiển thị trên GUI.

Stable Video Diffusion

Đóng ứng dụng PowerShell khi bạn thực hiện xong.

Bắt đầu lại GUI

Để khởi động lại GUI, hãy mở Ứng dụng PowerShell.

Điều hướng đến thư mục generative-models.

cd generative-models

Kích hoạt môi trường ảo.

.\venv\Scripts\Activate.ps1

Chạy lệnh sau để thiết lập đường dẫn Python.

$ENV:PYTHONPATH=$PWD

Chạy lệnh sau để khởi động GUI.

streamlit run scripts/demo/video_sampling.py

Tài nguyên

Stable Video Diffusion Colab notebook

Introducing Stable Video Diffusion – Official press release of SVD.

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets – The research paper.

Stability-AI/generative-models: Generative Models by Stability AI – code on GitHub page.

stabilityai/stable-video-diffusion-img2vid-xt – Model weights on Hugging Face.

Tham khảo: