تکنولوژی RAS در رم سرور

 تکنولوژی RAS در رم سرور

 

خرابی دستگاه حافظه اگر اصلاح نشود، می تواند منجر به مشکلاتی یا حتی خرابی سرور شود. همانطور که سرورهای جدیدتر، آرایه های حافظه بزرگتر را پیاده سازی می کنند، احتمال خرابی دستگاه حافظه با ظرفیت حافظه بالاتر افزایش می یابد. از آنجایی که خرابی سیستم حافظه یکی از رایج ترین انواع خرابی سرورها علاوه بر خرابی های ذخیره سازی است، سرورهای HPE ProLiant Gen10 با استفاده از پردازنده های مقیاس پذیر ®Intel® Xeon از ویژگی های حافظه RAS پشتیبانی می کنند. عبارت RAS مخفف سه کلمه Reliability و Availability و Serviceability است که به معنای قابلیت اطمینان، در دسترس بودن و قابلیت سرویس دهی می باشد.

این تکنولوژی مزایای زیر را داراست:

  • تشخیص و تصحیح خطا
  • افزونگی و انعطاف پذیری
  •  تعمیر و نگهداری

 

تکنولوژی RAS memory در سرور 

uptime سرور هنوز یکی از حیاتی ترین جنبه های نگهداری از مرکز داده است. متاسفانه سرورها ممکن است گاهی اوقات به دلیل مشکلات نرم افزاری، قطع برق یا خطاهای حافظه با مشکل مواجه شوند. سه دسته اصلی از خطاهای حافظه که با استفاده از این تکنولوژی ردیابی و مدیریت میشود، شامل موارد زیر است:

  • خطاهای قابل اصلاح
  •  خطاهای غیر قابل اصلاح 
  •  خطاهای قابل بازیابی 

تعیین اینکه کدام خطاها قابل تصحیح و غیر قابل اصلاح هستند کاملاً به توانایی کنترلر حافظه بستگی دارد.

 

خطاهای قابل اصلاح:

خطاهای قابل اصلاح طبق تعریف، خطاهایی هستند که توسط چیپست قابل شناسایی و اصلاح هستند. خطاهای قابل اصلاح عموماً خطاهای تک بیتی می باشند.

همه سرورهای HPE قادر به تشخیص و تصحیح خطاهای تک بیتی بوده و از کد تصحیح خطا (ECC) پشتیبانی میکنند. در سیستم‌های HPE، از طریق چراغ‌های روی پنل جلویی یا برد سیستم (در صورت موجود بودن) یا گزارش مدیریت یکپارچه HPE، در سیستم‌های HPE به کاربر هشدار داده می‌شود که DIMM از آستانه خطای تصحیح‌پذیر فراتر رفته است (IML).

 

ras حافظه

 

خطاهای غیر قابل تصحیح:

خطاهای غیر قابل تصحیح خطاهایی هستند که توسط چیپست قابل تشخیص هستند اما اصلاح نمی شوند.

اینها همیشه خطاهای حافظه چند بیتی هستند. خطا در IML ثبت خواهد شد. 

خطاهای غیر قابل اصلاح معمولاً می توانند در یک DIMM منفرد جدا شوند. این خطاها معمولاً بلافاصله منجر به خرابی یا خاموش شدن سیستم می شوند. در برخی موارد، با پشتیبانی از سیستم عامل (OS) و پردازنده های پیشرفته SKU (پردازنده های Intel Xeon Platinum و Gold)، خطاهای غیر قابل اصلاح منجر به از کار افتادن سیستم نمی شود. ما به این خطاها، قابل بازیابی می گوییم. 
 

خطاهای DRAM:

این خطا به طور کلی در دو نوع مختلف وجود دارند: خطاهای سخت افزاری و خطاهای نرم افزاری. خطاهای سخت افزاری معمولاً نشان دهنده مشکل در DIMM است. اگرچه خطاهای قابل تصحیح سخت افزاری توسط سیستم تصحیح می شوند و منجر به از کار افتادن سیستم یا خرابی داده ها نمی شوند، اما همچنان نشان دهنده یک مشکل سخت افزاری هستند. این خطاها معمولاً باعث می شوند که DIMM از آستانه خطای قابل تصحیح سیستم های HPE فراتر رود. خطاهای نرم افزاری هیچ مشکلی را در DIMM نشان نمی دهند. زمانی رخ می‌دهند که داده‌ها و یا بیت‌های ECC روی DIMM نادرست باشند، اما خطا پس از تصحیح داده‌ها و یا بیت‌های ECC روی DIMM ادامه پیدا نمی‌کند. 

هر نوع خطا، اگر به درستی مدیریت نشود، در نهایت می تواند باعث خاموش شدن سیستم شود. در نسل های اولیه سرورها، ECC اولیه برای رفع اکثر خرابی‌های DRAM کافی بود. با این حال، سرورهای امروزی چالش کاملاً متفاوتی را ارائه می‌کنند، بنابراین ویژگی‌های RAS برای حفظ پایداری سرور و زمان آپدیت مورد انتظار ضروری هستند.

توجه به این نکته مهم است که با اجتناب از یک شکست بحرانی، می توان از خرابی سیستم جلوگیری کرد. دستگاه های حافظه خراب به عنوان بخشی از سرویس دوره ای جایگزین می شوند. همچنین، فناوری‌های RAS حافظه می‌توانند یک دستگاه DRAM را روی یک DIMM که خطاهای نرم‌افزاری متعددی داشته است شناسایی کرده و هشدار می دهد قبل از خرابی، آن را تعویض کنید.

 

تحمل خطا سریع

 

تکنولوژی RAS memory در سرور HPE ProLiant/Synergy/Blade Gen10

توضیحات زیر نمای کلی از عملکرد فناوری های حافظه RAS را ارائه می دهد.

Fast Fault Tolerance (تحمل خطا سریع):

Fast Fault Tolerance یک ویژگی جدید HPE Memory RAS است که برای اولین بار در سرورهای HPE Gen10 با پردازنده های مقیاس پذیر Intel Xeon معرفی شد. سرورهایی که با HPE SmartMemory و Fast Fault Tolerance پیکربندی شده‌اند، یک لایه حفاظتی اضافی در برابر خرابی سرور (server downtime and server crashes) ارائه می‌دهند.

Fast Fault Tolerance، نسخه بهبودیافته تصحیح داده‌های دو دستگاه تطبیقی ​​(ADDDC)، نتیجه همکاری مشترک اینتل و اچ پی ای است. Fast Fault Tolerance مناطق اضافی بیشتری دارد (بخشی از حافظه که فقط برای جایگزینی مشکلات حافظه اختصاص داده شده است) و گزینه های بیشتری برای ترسیم بخش های بد حافظه دارد. این منجر به قابلیت اطمینان و در دسترس بودن حافظه به میزان قابل توجهی می شود.

خصوصیات

در نسل‌های گذشته سرور، پیشرفته‌ترین فناوری حفاظت از حافظه در سرورهای پرولینت، تصحیح اطلاعات دو دستگاه (DDDC) بود.

بزرگ‌ترین مشکل در این مورد، این بود که باید در هنگام بوت فعال می‌شد و در صورت فعال شدن، توان حافظه را به میزان قابل توجهی کاهش می‌داد. مشتریان باید بین انعطاف پذیری و عملکرد یکی را انتخاب می کردند. Fast Fault Tolerance نسبت به DDDC بهبود قابل توجهی را ارائه می دهد. زیرا مزایای عملکرد تصحیح داده تک دستگاه (SDDC) را با در دسترس بودن DDDC در بر می گیرد. Fast Fault Tolerance به سیستم اجازه می‌دهد تا با عملکرد حافظه کامل راه‌اندازی شود و تنها بخش‌های کوچک (بانک‌های) حافظه را در صورت نیاز برای تصحیح خرابی‌ها در حالت قفل قرار می‌دهد که در نتیجه عملکرد بسیار بهتری نسبت به DDDC دارد. 

خلاصه مطالب گفته شده اینکه:

  • Fast Fault Tolerance تا دو DRAM خطا زنده می ماند. (تشخیص و تصحیح)
  • ویژگی RAS انعطاف پذیری DDDC را با عملکرد SDDC ترکیب می کند.


منبع:

memory_ras.pdf

 


مترجم: محبوبه سردشتیان 


 

۵
از ۵
۱ مشارکت کننده

پرکاربردترین نوشته‌ها

سبد خرید