خرابی دستگاه حافظه اگر اصلاح نشود، می تواند منجر به مشکلاتی یا حتی خرابی سرور شود. همانطور که سرورهای جدیدتر، آرایه های حافظه بزرگتر را پیاده سازی می کنند، احتمال خرابی دستگاه حافظه با ظرفیت حافظه بالاتر افزایش می یابد. از آنجایی که خرابی سیستم حافظه یکی از رایج ترین انواع خرابی سرورها علاوه بر خرابی های ذخیره سازی است، سرورهای HPE ProLiant Gen10 با استفاده از پردازنده های مقیاس پذیر ®Intel® Xeon از ویژگی های حافظه RAS پشتیبانی می کنند. عبارت RAS مخفف سه کلمه Reliability و Availability و Serviceability است که به معنای قابلیت اطمینان، در دسترس بودن و قابلیت سرویس دهی می باشد.
این تکنولوژی مزایای زیر را داراست:
- تشخیص و تصحیح خطا
- افزونگی و انعطاف پذیری
- تعمیر و نگهداری
تکنولوژی RAS memory در سرور
uptime سرور هنوز یکی از حیاتی ترین جنبه های نگهداری از مرکز داده است. متاسفانه سرورها ممکن است گاهی اوقات به دلیل مشکلات نرم افزاری، قطع برق یا خطاهای حافظه با مشکل مواجه شوند. سه دسته اصلی از خطاهای حافظه که با استفاده از این تکنولوژی ردیابی و مدیریت میشود، شامل موارد زیر است:
- خطاهای قابل اصلاح
- خطاهای غیر قابل اصلاح
- خطاهای قابل بازیابی
تعیین اینکه کدام خطاها قابل تصحیح و غیر قابل اصلاح هستند کاملاً به توانایی کنترلر حافظه بستگی دارد.
خطاهای قابل اصلاح:
خطاهای قابل اصلاح طبق تعریف، خطاهایی هستند که توسط چیپست قابل شناسایی و اصلاح هستند. خطاهای قابل اصلاح عموماً خطاهای تک بیتی می باشند.
همه سرورهای HPE قادر به تشخیص و تصحیح خطاهای تک بیتی بوده و از کد تصحیح خطا (ECC) پشتیبانی میکنند. در سیستمهای HPE، از طریق چراغهای روی پنل جلویی یا برد سیستم (در صورت موجود بودن) یا گزارش مدیریت یکپارچه HPE، در سیستمهای HPE به کاربر هشدار داده میشود که DIMM از آستانه خطای تصحیحپذیر فراتر رفته است (IML).
خطاهای غیر قابل تصحیح:
خطاهای غیر قابل تصحیح خطاهایی هستند که توسط چیپست قابل تشخیص هستند اما اصلاح نمی شوند.
اینها همیشه خطاهای حافظه چند بیتی هستند. خطا در IML ثبت خواهد شد.
خطاهای غیر قابل اصلاح معمولاً می توانند در یک DIMM منفرد جدا شوند. این خطاها معمولاً بلافاصله منجر به خرابی یا خاموش شدن سیستم می شوند. در برخی موارد، با پشتیبانی از سیستم عامل (OS) و پردازنده های پیشرفته SKU (پردازنده های Intel Xeon Platinum و Gold)، خطاهای غیر قابل اصلاح منجر به از کار افتادن سیستم نمی شود. ما به این خطاها، قابل بازیابی می گوییم.
خطاهای DRAM:
این خطا به طور کلی در دو نوع مختلف وجود دارند: خطاهای سخت افزاری و خطاهای نرم افزاری. خطاهای سخت افزاری معمولاً نشان دهنده مشکل در DIMM است. اگرچه خطاهای قابل تصحیح سخت افزاری توسط سیستم تصحیح می شوند و منجر به از کار افتادن سیستم یا خرابی داده ها نمی شوند، اما همچنان نشان دهنده یک مشکل سخت افزاری هستند. این خطاها معمولاً باعث می شوند که DIMM از آستانه خطای قابل تصحیح سیستم های HPE فراتر رود. خطاهای نرم افزاری هیچ مشکلی را در DIMM نشان نمی دهند. زمانی رخ میدهند که دادهها و یا بیتهای ECC روی DIMM نادرست باشند، اما خطا پس از تصحیح دادهها و یا بیتهای ECC روی DIMM ادامه پیدا نمیکند.
هر نوع خطا، اگر به درستی مدیریت نشود، در نهایت می تواند باعث خاموش شدن سیستم شود. در نسل های اولیه سرورها، ECC اولیه برای رفع اکثر خرابیهای DRAM کافی بود. با این حال، سرورهای امروزی چالش کاملاً متفاوتی را ارائه میکنند، بنابراین ویژگیهای RAS برای حفظ پایداری سرور و زمان آپدیت مورد انتظار ضروری هستند.
توجه به این نکته مهم است که با اجتناب از یک شکست بحرانی، می توان از خرابی سیستم جلوگیری کرد. دستگاه های حافظه خراب به عنوان بخشی از سرویس دوره ای جایگزین می شوند. همچنین، فناوریهای RAS حافظه میتوانند یک دستگاه DRAM را روی یک DIMM که خطاهای نرمافزاری متعددی داشته است شناسایی کرده و هشدار می دهد قبل از خرابی، آن را تعویض کنید.
تکنولوژی RAS memory در سرور HPE ProLiant/Synergy/Blade Gen10
توضیحات زیر نمای کلی از عملکرد فناوری های حافظه RAS را ارائه می دهد.
Fast Fault Tolerance (تحمل خطا سریع):
Fast Fault Tolerance یک ویژگی جدید HPE Memory RAS است که برای اولین بار در سرورهای HPE Gen10 با پردازنده های مقیاس پذیر Intel Xeon معرفی شد. سرورهایی که با HPE SmartMemory و Fast Fault Tolerance پیکربندی شدهاند، یک لایه حفاظتی اضافی در برابر خرابی سرور (server downtime and server crashes) ارائه میدهند.
Fast Fault Tolerance، نسخه بهبودیافته تصحیح دادههای دو دستگاه تطبیقی (ADDDC)، نتیجه همکاری مشترک اینتل و اچ پی ای است. Fast Fault Tolerance مناطق اضافی بیشتری دارد (بخشی از حافظه که فقط برای جایگزینی مشکلات حافظه اختصاص داده شده است) و گزینه های بیشتری برای ترسیم بخش های بد حافظه دارد. این منجر به قابلیت اطمینان و در دسترس بودن حافظه به میزان قابل توجهی می شود.
خصوصیات
در نسلهای گذشته سرور، پیشرفتهترین فناوری حفاظت از حافظه در سرورهای پرولینت، تصحیح اطلاعات دو دستگاه (DDDC) بود.
بزرگترین مشکل در این مورد، این بود که باید در هنگام بوت فعال میشد و در صورت فعال شدن، توان حافظه را به میزان قابل توجهی کاهش میداد. مشتریان باید بین انعطاف پذیری و عملکرد یکی را انتخاب می کردند. Fast Fault Tolerance نسبت به DDDC بهبود قابل توجهی را ارائه می دهد. زیرا مزایای عملکرد تصحیح داده تک دستگاه (SDDC) را با در دسترس بودن DDDC در بر می گیرد. Fast Fault Tolerance به سیستم اجازه میدهد تا با عملکرد حافظه کامل راهاندازی شود و تنها بخشهای کوچک (بانکهای) حافظه را در صورت نیاز برای تصحیح خرابیها در حالت قفل قرار میدهد که در نتیجه عملکرد بسیار بهتری نسبت به DDDC دارد.
خلاصه مطالب گفته شده اینکه:
- Fast Fault Tolerance تا دو DRAM خطا زنده می ماند. (تشخیص و تصحیح)
- ویژگی RAS انعطاف پذیری DDDC را با عملکرد SDDC ترکیب می کند.
منبع:
مترجم: محبوبه سردشتیان