آموزش PyTorch با چند GPU: راهنمای کامل
PyTorch به عنوان یکی از محبوبترین چارچوبهای یادگیری عمیق شناخته میشود که توسط محققان و متخصصان به دلیل گراف محاسباتی پویا و سهولت استفاده مورد علاقه قرار گرفته است. با رشد مدلهای یادگیری عمیق و افزایش پیچیدگی آنها، آموزش آنها به طور کارآمد نیاز به استفاده از قدرت چند GPU دارد. در این مقاله، به دنیای آموزش چند GPU با PyTorch خواهیم پرداخت و تکنیکهایی مانند DataParallel و DistributedDataParallel را برای افزایش سرعت آموزش مورد بررسی قرار خواهیم داد.
نیاز به سرعت: چرا چند GPU مهم است
آموزش مدلهای پیشرفته یادگیری عمیق اغلب روزها یا حتی هفتهها طول میکشد. این سرعت کم در فرآیند آموزش میتواند پیشرفت تحقیقات را محدود کرده و به تأخیر انداختن استفاده از مدلها در تولید را به دنبال داشته باشد. با توزیع آموزش بر روی چند GPU، میتوانیم زمان مورد نیاز برای آموزش این مدلهای بزرگ را به طور قابل توجهی کاهش دهیم.
دو رویکرد اصلی برای موازیسازی آموزش در PyTorch وجود دارد:
-
موازیسازی داده: مدل در هر GPU تکرار میشود و بخشی از داده در هر تکرار پردازش میشود. گرادیانها پس از هر بار پردازش در سراسر GPUها تجمیع میشوند.
-
موازیسازی مدل: بخشهای مختلف مدل در سراسر GPUها تقسیم میشوند، به طوری که هر GPU مسئول بخشی از پاس رو به جلو و پس به عقب است. این رویکرد کمتر رایج است و پیادهسازی آن پیچیدهتر است.
در این مقاله، بر روی موازیسازی داده تمرکز خواهیم کرد، زیرا این رویکرد رایجترین است و توسط ماژولهای داخلی PyTorch به خوبی پشتیبانی میشود.
شروع کار با DataParallel
ماژول DataParallel
PyTorch راهی ساده برای استفاده از چند GPU با حداقل تغییر در کد ارائه میدهد. این ماژول به طور خودکار داده ورودی را در سراسر GPUهای موجود تقسیم کرده و گرادیانها را در طول پاس به عقب تجمیع میکند.
اینجا یک مثال ساده از استفاده از DataParallel
برای پوشش دادن یک مدل آورده شده است:
import torch
import torch.nn as nn
# تعریف مدل خود
model = nn.Sequential(
nn.Li.ترجمه فارسی:
near(10, 20),
nn.ReLU(),
nn.Linear(20, 5)
)
# مدل را به GPU منتقل کنید
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
# مدل را با DataParallel بپیچانید
parallel_model = nn.DataParallel(model)
حال، هنگامی که ورودی را به parallel_model
ارسال میکنید، به طور خودکار در میان GPUهای موجود تقسیم میشود. ماژول جمعآوری خروجیها و گرادیانها را مدیریت میکند، که این امر برای بقیه کد آموزش شما شفاف است.
inputs = torch.randn(100, 10).to(device)
outputs = parallel_model(inputs)
مزایا و محدودیتها
DataParallel
استفاده آسانی دارد و میتواند سرعتبخشی خوبی را ارائه دهد هنگامی که چند GPU در یک ماشین داشته باشید. با این حال، برخی محدودیتها نیز دارد:
- تنها از آموزش چند GPU در یک فرآیند پشتیبانی میکند، بنابراین برای خوشههای بزرگتر مناسب نیست.
- مدل باید به طور کامل در حافظه هر GPU جا بگیرد، که این محدودیتی برای حداکثر اندازه مدل است.
- ممکن است هزینه قابل توجهی برای کپی داده بین GPUها، به ویژه با عملیاتهای کوچک زیاد، وجود داشته باشد.
با وجود این محدودیتها، DataParallel
برای بسیاری از موارد استفاده رایج یک گزینه خوب است و راه عالی برای شروع آموزش چند GPU در PyTorch است.
گسترش با DistributedDataParallel
برای مدلهای بزرگتر و خوشهها، ماژول DistributedDataParallel
(DDP) PyTorch رویکرد انعطافپذیرتر و کارآمدتری را برای آموزش چند GPU ارائه میدهد. DDP از چندین فرآیند، هر کدام با GPU خود، برای موازیسازی آموزش استفاده میکند.
ویژگیهای کلیدی DDP شامل موارد زیر است:
- پشتیبانی چند فرآیندی: DDP میتواند به صدها GPU در چندین گره مقیاس پیدا کند، که امکان آموزش مدلهای بسیار بزرگ را فراهم میکند.
- ارتباطات کارآمد: از پشتیبان NCCL برای ارتباطات سریع GPU-to-GPU استفاده میکند، که هزینه را به حداقل میرساند.
- همگامسازی گرادیان: DDP به طور خودکار گرادیانها را در طول عبور به عقب بین فرآیندها همگام میکند.
اینجا مثالی از نحوه راهاندازی DDP در اسکریپت آموزش شما آورده شده است:
import torch
import torch.distributed as dist
import torch.multiprocessing as m.
```اینجا ترجمه فارسی فایل مارکداون است:
def train(rank, world_size):
# فرایند گروه را مقداردهی اولیه کنید
dist.init_process_group(backend='nccl', rank=rank, world_size=world_size)
# مدل خود را تعریف کنید
model = nn.Sequential(...)
# مدل را با DDP بپیچانید
model = nn.parallel.DistributedDataParallel(model, device_ids=[rank])
# حلقه آموزش شما اینجا قرار دارد
...
def main():
world_size = torch.cuda.device_count()
mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)
if __name__ == '__main__':
main()
در این مثال، ما از torch.multiprocessing
برای ایجاد یک فرایند برای هر GPU استفاده میکنیم. هر فرایند گروه فرایند خود را با استفاده از dist.init_process_group()
مقداردهی اولیه میکند، با مشخص کردن رتبه و اندازه کل جهان.
سپس مدل با DDP پیچانده میشود، با ارسال لیست شناسههای دستگاه برای استفاده. در داخل حلقه آموزش، مدل میتواند به طور معمول استفاده شود، با DDP که مدیریت توزیع داده و گرادیانها در میان فرایندها را بر عهده دارد.
مقایسه عملکرد
برای نشان دادن مزایای عملکردی آموزش چند GPU، بیایید زمان آموزش برای یک مدل ساده در یک GPU، با DataParallel
و با DDP را مقایسه کنیم:
تنظیم | زمان آموزش (ثانیه) | افزایش سرعت |
---|---|---|
یک GPU | 100 | 1x |
DataParallel | 55 | 1.8x |
DDP (4 GPU) | 30 | 3.3x |
همانطور که میبینید، هر دو DataParallel
و DDP سرعت قابل توجهی نسبت به آموزش تک GPU ارائه میدهند. DDP با افزایش تعداد GPU بهتر مقیاسپذیر است و در بسیاری از موارد میتواند به مقیاسپذیری نزدیک به خطی دست یابد.
بهترین شیوههای آموزش چند GPU
برای به دست آوردن بیشترین بازده از آموزش چند GPU در PyTorch، به این بهترین شیوهها توجه کنید:
- استراتژی موازیسازی مناسب را انتخاب کنید: از
DataParallel
برای موارد ساده با چند GPU استفاده کنید و به DDP برای مدلهای بزرگتر و خوشهها تغییر دهید. - اندازه دستهها را تنظیم کنید: اندازه دستههای بزرگتر میتواند بهرهوری GPU را بهبود بخشد و باعث کاهش هزینه ارتباطات شود. با اندازههای مختلف دسته آزمایش کنید.اینجا ترجمه فارسی فایل مارکداون است:
بهینهسازی مدل و سختافزار خود برای پیدا کردن نقطهی بهینه.
- استفاده از دقت مختلط: ماژول
torch.cuda.amp
در PyTorch امکان آموزش با دقت مختلط را فراهم میکند، که میتواند استفاده از حافظه را به طور قابل توجهی کاهش دهد و عملکرد را در GPU های مدرن بهبود بخشد. - مدیریت حالت های تصادفی: مطمئن شوید که برای قابل تکرار بودن، بذرهای تصادفی را به صراحت تنظیم کنید و از
torch.manual_seed()
استفاده کنید تا هر فرآیند حالت تصادفی منحصر به فرد داشته باشد. - پروفایلگیری و بهینهسازی: از ابزارهای پروفایلگیری مانند PyTorch Profiler یا NVIDIA Nsight استفاده کنید تا نقاط ضعف عملکرد را شناسایی و کد خود را بهینه کنید.
مثالهای واقعی
آموزش چند GPU برای دستیابی به نتایج پیشرفته در طیف گستردهای از حوزهها، از بینایی کامپیوتری تا پردازش زبان طبیعی، مورد استفاده قرار گرفته است. اینجا چند مثال قابل توجه آورده شده است:
- BigGAN: محققان در DeepMind از PyTorch DDP برای آموزش مدل BigGAN بر روی 128 GPU استفاده کردند، تصاویری با کیفیت بالا و سطح بیسابقهای از جزئیات و تنوع تولید کردند.
- OpenAI GPT-3: مدل زبانی GPT-3 با 175 میلیارد پارامتر، بر روی یک خوشهی 10,000 GPU با ترکیبی از موازیسازی مدل و داده آموزش داده شد.
- AlphaFold 2: مدل تا کردن پروتئین AlphaFold 2 در DeepMind بر روی 128 هسته TPUv3 آموزش داده شد، که قابلیت مقیاسپذیری آموزش چند دستگاهی را فراتر از GPU ها نشان میدهد.
این مثالها قدرت آموزش چند GPU را برای گسترش مرزهای آنچه با یادگیری عمیق ممکن است، به نمایش میگذارند.
نتیجهگیری
در این مقاله، به بررسی دنیای آموزش چند GPU با PyTorch پرداختیم، از مبانی DataParallel
تا تکنیکهای پیشرفتهتر DistributedDataParallel
. با بهرهگیری از قدرت چند GPU، میتوانید جریانهای آموزشی خود را به طور قابل توجهی سرعت بخشید و به مدلهای بزرگتر و پیچیدهتر بپردازید.
به یاد داشته باشید که استراتژی موازیسازی مناسب برای مورد استفاده خود را انتخاب کنید، پارامترهای تنظیم را تنظیم کنید و از بهترین شیوهها برای عملکرد بهینه پیروی کنید. با رویکرد درست، آموزش چند GPU میتواند تحولآفرین در پروژههای یادگیری عمیق شما باشد.
برای آموزش بیشتر در مورد آموزش چند GPU.اینجا ترجمه فارسی فایل مارکداون است:
برای یادگیری موازیسازی در PyTorch، به این منابع اضافی نگاه کنید:
- مستندات PyTorch DataParallel (opens in a new tab)
- مستندات PyTorch DistributedDataParallel (opens in a new tab)
- نمای کلی توزیعشده PyTorch (opens in a new tab)
موفق باشید!