راه حل‌های آماده یادگیری ماشین/هوش مصنوعی سوپرمیکرو

۱۸ خرداد ۱۴۰۰ مقالات سوپرمیکرو ، هوش_مصنوعی ، فضای_ذخیره‌سازی ، نرم_افزار ، یادگیری_ماشین ، AI/ML ، زیرساخت_شبکه

تمام نیازهای برنامه AI/ML خود را با راه حل‌های بهینه شده سرور GPU سوپرمیکرو برطرف کنید.

خلاصه اجرایی
گسترش سریع برنامه‌های هوش مصنوعی (AI) و یادگیری ماشین (ML) در تمام ابعاد تجارت و زندگی روزمره باعث ایجاد انفجاری در Big Data می‌شود. این پیشرفت هزینه‌ای به همراه دارد، با این وجود نیاز به آموزش مداوم و مجدد و تنظیم بیش از حد پارامتر زمان، بیشتر از آنچه که اکنون عادی به نظر می‌رسد، دارد. علاوه بر این، AI/ML برای آموزش مدل به قدرت پردازش زیادی نیاز است.

الگوریتم‌های یادگیری ماشین با محاسبات فشرده هنگام استفاده از سخت‌افزار بدون ویژگی‌های شتاب، زمان طولانی‌تری را طی می‌کنند که به عملکرد ضعیف برنامه و کاهش بازگشت سرمایه می‌انجامد. با این تقاضای فزاینده برای برنامه‌های کاربردی AI/ML، مراکز داده سازمان‌ها در حین کوتاه کردن زمان آموزش، بودجه و فضا و منابع IT را نیز منطبق می‌کنند.

با توجه به گسترش نامحدود مجموعه داده‌ها و همچنین برنامه‌های محاسباتی و پرمخاطره، مدیران مراکز داده باید سریعا از قدرت پردازش لازم و تطبیق پلتفرم‌های AI/ML برای تأمین نیازهای تجاری خود مطمئن شوند. با انتخاب مناسب فروشندگان، راه حل‌های برنامه همراه با سخت‌افزار به کاربران کمک می‌کنند تا روندها و الگوها را شناسایی کنند، که این امر باعث خروجی و زمان آموزش بهتر می‌شود، و بنابراین به چرخه مثبتی از پیشرفت می‌انجامد. این مقاله یکی از راه حل‌های AI/ML از شرکت سوپرمیکرو را شرح می‌دهد.

راه حل AI/ML سوپرمیکرو
توصیف کلی
همچنان که هوش مصنوعی و راه حل‌های یادگیری ماشین در دسترس‌تر و پخته‌تر می‌شوند، سازمان‌های جهانی به ارزشی که این راه حل‌ها می‌توانند برای حل چالش‌های پیشرفته تجاری ارائه دهند، پی خواهند برد.

راه حل AI/ML سوپرمیکرو از یکی از بهترین پلتفرم‌های سخت‌افزاری و Canonical Distribution of Kubernetes (CDK) آماده شده شرکتی برخوردار است و دارای قابلیت‌های ذخیره‌سازی تعریف شده توسط نرم‌افزار Ceph است. این راه حل از طریق معماری مرجع خود شبکه، محاسبه و ذخیره‌سازی را ادغام می‌کند. اجرای آغازین شامل پیشنهاد یک rack با قابلیت مقیاس گذاری تا چند rack در صورت لزوم است.

معماری مرجع AI/ML
معماری مرجع، آماده‌ی استفاده از راه حل AI/ML ،end to end است که شامل پشته AI SW ،orchestration و مخازن است. طراحی مرجع بهینه متناسب با آموزش یادگیری ماشین و برنامه‌های استنباطی است. معماری سطح بالا شامل نرم‌افزار، سوئیچ‌های شبکه، کنترل، محاسبه، ذخیره‌سازی و خدمات پشتیبانی است.

طرح مرجع نشان داده شده در شکل 1 شامل دو سوئیچ داده، دو سوئیچ مدیریتی، سه گره زیرساختی که به عنوان گره‌های پایه برای MAAS/JUJU عمل می‌کنند و شش گره ابر است. این طرح در پلتفرم Kubernetes ساخته شده است و بسته‌های سخت شده Canonical را برای مخازن Kubernetes و Ceph فراهم می‌کند. Kubeflow مجموعه ابزار یادگیری ماشین برای Kubernetes فراهم می‌کند.

شکل 1. معماری مرجع AI /ML سوپرمیکرو

پیکربندی راه حل

حداکثر 216 هسته محاسباتی
حداکثر 3072 گیگابایت حافظه سیستم
حداکثر 36 ترابایت فضای ذخیره‌سازی
حداکثر 40 گیگابایت اترنت شبکه داده
ارتفاع 19U
حافظه پنهان با عملکرد بالا با استفاده از حافظه فلش NVMe

نکات اصلی شامل موارد زیر است: معماری مرجع مجاز با اجزای معتبر و آزمایش شده، از یک تا چندین rack، سرورهای صرفه جویی green Resource برای ابر که صدها دلار به ازای هر سرور صرفه جویی می‌کند، عملکرد پیشرو در صنعت، خدمات مشاوره اختیاری و پشتیبانی و راه حل بهینه شده برای شرکای مجاز Intel AI.

این راه حل در خانواده‌های سرور Ultra و BigTwin سوپرمیکرو ساخته شده و معتبر است و همچنین از سوئیچ‌های اترنت سوپرمیکرو مانند SSE-G3648B (مدیریت/سوئیچ ترافیک IPMI)، SSE-X3648S (سوئیچ شبکه داده 10 گیگابایت اترنت)، SSE-F3548S (سوئیچ شبکه داده 25 گیگابایت اترنت) و SSE-C3632S (سوئیچ شبکه داده 40 گیگابایت اترنت) استفاده می‌کند. در واقع برای عملکردهای بهینه شده و ارائه بالاترین سطوح قابلیت اطمینان، کیفیت و مقیاس پذیری طراحی شده است.

چگونه راه حل سوپر میکرو استفاده می‌شود؟
راه حل سوپرمیکرو توسط مدیران فناوری اطلاعات، دانشمندان داده و توسعه دهندگان استفاده می‌شود. مراحل روند بکارگیری در ادامه بیان شده است.

بکارگیری برای مدیر IT
مرحله 1. با سیستم‌های مدیریت شده IPMI، به شبکه برای مدیریت داده وصل شوید.
مرحله 2. برای افزودن منابع سخت‌افزاری مورد نیاز، YAML را به‌روز کنید و خوشه Kubernetes را نصب کنید.
مرحله 3. برای مقیاس گذاری، دستور“Juju add-unit Kubernetes-worker” یا برای از بین بردن، دستور “juju remove-machine <Node-id>” را صادر کنید.
IPMI برای اتصال به شبکه جهت مدیریت داده استفاده می‌شود. پس از اتصال، مراحل 2 و 3 امکان افزودن منابع سخت‌افزاری و استفاده از دستورات JUJU را برای مقیاس گذاری و بعداً برای غیرفعال کردن تجهیزات خارج از سرویس فراهم می‌کند.

بکارگیری برای دانشمندان داده و توسعه دهندگان
روند بکارگیری راه حل برای دانشمندان داده و توسعه‌ دهندگان به طور خلاصه در ادامه بیان شده است:
1. شبکه‌های معروف (مانند Resnet ،Inception و غیره) را کپی کنید یا از git hub بگیرید.
2. برای ایجاد حجم مداوم یک YAML ایجاد کنید.
3. برای آموزش یا استنباط هدف یک YAML ایجاد کنید.
4. منابع مورد نیاز که برای اجرای گره‌های خاص به طور مداوم مطالبه می‌شوند را اضافه کنید.

جریان راه حل سوپرمیکرو چگونه کار می‌کند؟
Kubeflow یک پروژه منبع باز است که به ارائه منابع یادگیری ماشین (ML) با کاربرد آسان در بالای خوشه Kubernetes اختصاص دارد. با استفاده از Canonical MAAS و Juju، راه اندازی محیط Kubernetes/ Kubeflow نسبتا ساده و کنترل کننده Juju، بکارگیری خوشه Kubernetes را بر اساس زیرساخت پشتیبانی شده بر روی یک گره و خوشه چند گرهه آسان می‌کند. با Kubeflow نصب TensorFlow آسان می‌شود و با افزودن سیستم‌های سوپرمیکرو حاوی شتاب دهنده‌های مناسب (Intel MKL)، می‌تواند عملکرد شتاب گرفته‌ای را برای مشاغل ارائه شده ML فراهم کند. سرانجام، Prometheus برای نظارت و هشدار رویداد قابل استفاده است.

شکل 2. شرح تصویری جریان AI/ML سوپرمیکرو

جزئیات سیستم
معماری راه حل
پیکربندی‌های AI/ML سوپرمیکرو بر اساس منابع محاسباتی با چگالی بالا و فضای ذخیره‌سازی توسط نرم‌افزار برای Cloud و معماری مقیاس بندی، بهینه شده‌اند.
سیستم‌های راه حل سوپرمیکرو دارای جدیدترین پردازنده‌های مقیاس پذیر نسل دوم Intel Xeon همراه با مدل‌ها و بسته‌های ML بهینه شده اینتل هستند. این سیستم‌ها همچنین از سیستم‌عامل Ubuntu ،Kubernetes ،Kubeflow، ذخیره‌سازی Ceph و سوئیچ‌های شبکه سوپرمیکرو استفاده می‌کنند تا اطمینان یابند که زیرساخت مقیاس بندی شده، عملکرد بهتر، خروجی و زمان سریعتر آموزش را فراهم می‌کنند.

معماری شبکه
همانطور که داده‌ها به ترتیب ترابایت و پتابایت به صورت تصاعدی رشد می‌کنند، زیرساخت شبکه به راه حل ذخیره‌سازی مقیاس‌پذیر قابل اعتمادی نیاز دارد. Ceph سیستم ذخیره‌سازی ترجیحی برای دستیابی به زیرساخت شبکه پایدار و قوی است. خوشه ذخیره‌ساز مقیاس پذیر و مقاوم به خطا، با مدیریت خروجی داده‌ها و الزامات تراکنش کاربر، به زیرساختی با عملکرد بالا تبدیل می‌شود.

علاوه بر این، راه حل AI/ML متشکل از سوئیچ‌های مدیریت دوگانه (IPMI وKubernetes)، سوییچ‌های داده دوگانه، سه گره زیرساختی و شش گره ابری است. سوئیچ مدیریتی، اتصال 1 گیگابایت بر ثانیه را پشتیبانی می‌کند و در هر سه گزینه شبکه که 10، 25 و 40 گیگابایت بر ثانیه است، مشترک می‌باشد. بعلاوه، سوئیچ داده از 10، 25 و 40 گیگابایت بر ثانیه نیز پشتیبانی می‌کند. سوئیچ‌های داده 10 و 40 گیگابایت اترنت به سیستم‌عامل Cumulus نیاز دارند، در حالی که سوئیچ داده 25 گیگابایت اترنت به سیستم‌عامل سوپرمیکرو SMIS (Society for Management Information Systems) نیاز دارد.

شکل 3. نمودار معماری شبکه

پیکربندی
اجزای AI/ML شامل سه گره زیرساختی Ultra سوپرمیکرو (SYS-6019U- TN4RT)، شش گره ابری Ultra (SYS-6029U-TR4T) و دوازده دیسک داده گره ابری (درایوهای U.2 NVMe) است. پیکربندی همچنین شامل مجوزهای Ubuntu Advantage Advanced و Ubuntu Kubernetes Discoverer و خدمات اختیاری شامل اعتبار سنجی طراحی مرکز داده و خدمات راه اندازی، خدمات یکپارچه‌سازی rack و پشتیبانی در محل سوپرمیکرو می‌باشد.

شکل 4. توصیف پیکربندی بخش ML ،SKU، مقدار

نتایج معیار
پردازنده‌های مقیاس‌پذیر نسل دوم Intel Xeon تقریبا 25٪ نتایج عملکرد بالاتری نسبت به سیستم‌های نسل قبلی هم در آموزش و هم در استنباط با تست معیار CNN نشان دادند.

شکل 5. مقایسه معیار آموزش Skylake و Cascade lake، با استفاده از SYS-6029U-TR4 با 2 پردازنده Intel Xeon Gold 6130

شکل 6. مقایسه معیار استنباط Skylake و Cascade lake، با استفاده از SYS-6029U-TR4 با 2 پردازنده Intel Xeon Gold 6130

BigTwin با پردازنده مقیاس‌پذیر Intel Xeon پلاتینیوم 8260L، خروجی بهتری در آموزش و استنباط نشان داد.

شکل 7. معیارهای آموزش با استفاده از BigTwin (SYS-2029BT-HNC0R) با 2 پردازنده Intel Xeon Platinum 8260L

شکل 8. معیارهای استنباط با استفاده از BigTwin (SYS-2029BT-HNC0R) با 2 پردازنده Intel Xeon Platinum 8260L

پشتیبانی و خدمات
Canonical و سوپرمیکرو دریک مشارکت، پشتیبانی شرکتی برای توزیع Canonical ازKubernetes را فراهم می‌کنند. این مشارکت خدمات کشف و طراحی سرویس را ارائه می‌دهد، زیرساخت‌ها را به اندازه و مشخصات مورد نیاز تقسیم و به مشتریان در دستیابی به مجموعه دانش و تخصص جهانی کمک می‌کند.

نتیجه گیری
راه حل آماده end to end ،AI/ML سوپرمیکرو به راحتی قابل استفاده است و جزئیات پیاده‌سازی سطح پایین را مدیریت می‌کند، بنابراین توسعه دهندگان، دانشمندان داده و مدیران فناوری اطلاعات می‌توانند بهره‌وری بیشتری داشته باشند. این راه حل مجاز، به عنوان بستر مناسبی برای آموزش یادگیری ماشین و نیازهای استنباطی عمل می‌کند. همچنین خروجی رقابتی فراهم کرده است و با سرعت بخشیدن به محاسبات و حجم کار برنامه‌های پرمخاطره AI/ML، زمان آموزش/استنباط را کاهش می‌دهد.
سوپرمیکرو با سخت‌افزار بهینه شده سرور/ذخیره سازی/شبکه و قدرت محاسبات با کارایی بالا، همراه با تطبیق زیرساخت AI/ML، می‌تواند روندها و الگوها را از Big data شناسایی کند و برای حجم کار یادگیری ماشین اقدامات مناسب را انجام دهد تا خروجی و زمان آموزش بهتری حاصل کند که منجر به نتایج موفقیت آمیز تجاری شود.

۵

از ۵

۵ مشارکت کننده

مهندس اعلمی گفت:

سلام و عرض ادب خدمت همکار گرامی
چطور معماری مرجع سوپرمیکرو می‌تواند زمان آموزش مدل‌های یادگیری ماشین را کاهش دهد؟

پاسخ

مدیریت گفت:

سلام همکار محترم
معماری مرجع سوپرمیکرو با ترکیب پردازش موازی، ذخیره‌سازی سریع Ceph و مدیریت کارآمد کانتینرها با Kubernetes، زمان آموزش مدل‌های یادگیری ماشین را کاهش می‌دهد و کارایی سیستم را بهینه می‌کند.

پاسخ