הגדרת אינפיניבנד ב-VMware vSphere 8: מדריך מקיף
פתיח
בימינו, הביקוש לרשתות בעלות ביצועים גבוהים בסביבות מוּסָדות וירטואלית גבר, מה שהופך את הגדרת אינפיניבנד ב-VMware vSphere 8 למשימה קריטית עבור צוותי IT רבים. במאמר זה, נסקור את התהליך המוזכר ומגוון השיקולים בהקשרים של ביצועים, הגדרות SR-IOV ותסריטי פתרון בעיות נפוצים.
שיפורים בהגדרת אינפיניבנד ב-vSphere 8
אחת ההתקדמות המרכזית בהגדרת אינפיניבנד ב-vSphere 8 היא השדרוגים שנעשו בניהול מחזור חיי vSphere ותמיכה משופרת בנהגים מקומיים. עבור מי שמכיר את vSphere 7, ישנם הליכים רבים שממשיכים להתקיים, אך vSphere 8 מביא עמו שינויים חשובים שכדאי להכיר.
אימות הנהג של Mellanox
השלב הראשון בהגדרה הוא לוודא שהנהג המקורי של Mellanox קיים על המחשב המארח ESXi. עם vSphere 8, הנהג מותקן מראש, ואפשר לאשר זאת בעזרת פקודת esxcli
פשוטה. כך נוכל להבטיח שההתקנה מוכנה לפעולה.
התקנת כלי הקושחה של Mellanox
התקנת כלים כמו MFT ו-NMST הפכה לפשוטה הרבה יותר עם Nמרכז управления מחזור חיי vSphere. במקום להשלים התקנות של חבילות ידנית בין מחשבים מארחים, המנהלים יכולים להשתמש במרכז הניהול לייבוא ותיקון מרובע בדירקטוריות. חבילות אלו ניתנות להורדה מאתר NVIDIA, ולאחר העלאתן ללקוח של vSphere, ניתן לעדכן את כל הקלאסטר עם זמן השבתה מינימלי.
פתרון בעיות בהתקנה
במקרים מסוימים, כרטיסי אינפיניבנד עשויים לא להיות נראים בעזרת הפקודה mst status
לאחר ההתקנה. בעיה זו נפתרת בדרך כלל על ידי הכנסת הנהג של Mellanox למצב שיקום, תוך שימוש בפרמטרים מתאימים בפקודת esxcli
, ולאחר מכן ביצוע של כמה אתחולים למחשב המארח.
הפעלת SR-IOV בסביבות וירטואליות
הפעלת SR-IOV רלוונטית במיוחד עבור עומסי עבודה כמו אימון מודלים בשפה, הזקוקים למספר כרטיסי IB. ניתן להשתמש בסקריפט בעזרת mlxconfig
כדי להפעיל הגדרות PCI מתקדמות ול.configure virtual functions עבור כל מכשיר. חשוב לזכור כי ב-vSphere 8, ה-VFs של אינפיניבנד עשויים להופיע כ'Down' בממשק המשתמש, מה שנחשב להתנהגות צפויה. יש לאמת את מצב הקישור ברמת ה-VM.
שימוש ב-Passthrough לעומת SR-IOV
בסביבות שמשתמשות במעבר PCI ולא ב-SR-IOV, יש אפשרות לבטל את SR-IOV בעזרת סקריפט דומה שמחזיר את הגדרות הכרטיס ומאפס את פרמטרי המודול של ESXi.
ניהול מתגים והקשר עם אינפיניבנד
על המנהלים לוודא שהמתגים שלהם פועלים עם גרסה עדכנית של MLNX-OS. תאימות בין הקושחה של המתג לקושחה של המתקן חיונית למניעת בעיות תקשורת. כמו כן, הפעלת התמיכה בוירטואליזציה Open-SM מתגים היא קריטית לתמיכה בפונקציות SR-IOV.
הבדלים בהתנהגות בין Pass-through ל-SR-IOV
במאמר זה נדון במספר דקויות התנהגותיות כאשר משתמשים בהגעה ישירה (pass-through) לעומת SR-IOV. לדוגמה, חלק מהכלים של Open-SM עשויים לא לפעול כאשר פונקציה וירטואלית מועברת ל-VM, דבר שחיוני להיות מודעים אליו. ההתנהגות של הפקודה mst status
עשויה להיפתח גם היא בהתאם להיותה פונקציה פיזית או וירטואלית.
אמצעים לפתרון בעיות עם כרטיסי MLX
באם כרטיסי MLX לא מופיעים בפלט של mst status
, יש כמה צעדים שניתן לנקוט: טען מחדש את מודולי הליבה המתאימים ושלח אותות לתהליכי מערכת. מצב השיקום יינתן זמנית עד לאתחול הבא של המחשב המארח.
ביצועים ובדיקות בהתקנה
בדיקות ביצועים גילו כי נתון רוחבי חד-כיווני הגיעה ל-396.5 Gbps באמצעות ארבעה זוגות תורים, כמעט שיא קצב הקו התיאורטי של כרטיסי אינפיניבנד. בדיקות רוחב פס דו-כיווניות הצביעו על שדרוג ביצועים עד 790 Gbps עם שני כרטיסים, מה שמאשר את יכולת ההתקנה להתמודד עם עומסי עבודה תובעניים של HPC ו-AI.
סיכום
במהלך VMware vSphere 8, חווית ההתקנה של אינפיניבנד השתפרה עם הכנסת אוטומציה דרך מרכז ניהול מחזור חיי ה-vSphere ושמירה על יכולות טיונינג ביצועים חזקות. בעזרת שיטות עבודה מעודכנות, התקנה מפושטת והדרכה ברורה על SR-IOV ופתרון בעיות, צוותי ה-IT יכולים כיום לנצל את פוטנציאל אינפיניבנד בסביבות וירטואליות, כולל VMware Cloud Foundation.
מאמר זה משקף את יסודות המסמך הטכני שכתב יוּאנְקוּן פו, אשר יש לו רקע חזק באופטימיזציה של ביצועים ב-HPC ו-AI במסגרת VMware. ההנחיות שלו מספקות הן הוראות מעשיות והן נתוני ביצועים רלוונטיים לצוותים המחפשים לאמץ או לשדרג את אינפיניבנד בסביבות ה-vSphere שלהם.