97¹ú¼Ê

¹¤³§ÑÐѧ Ø­ 97¹ú¼ÊÍøÂçÊý×Ö»¯ÖÇÄܹ¤³§¡°ºÚ¿Æ¼¼¡±´ó½ÒÃØ
Ô¤Ô¼Ö±²¥
ÀÖÏíÓªÒµ°ü¹Ü·þÎñ Ø­ ÊØ»¤Ò½ÁÆÓªÒµÒ»Á¬ÎȹÌ
Ô¤Ô¼Ö±²¥
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾
²úÆ·
< ·µ»ØÖ÷²Ëµ¥
²úÆ·ÖÐÐÄ
²úÆ·
½â¾ö¼Æ»®
< ·µ»ØÖ÷²Ëµ¥
½â¾ö¼Æ»®ÖÐÐÄ
ÐÐÒµ
ºÏ×÷»ï°é
·µ»ØÖ÷²Ëµ¥
Ñ¡ÔñÇøÓò/ÓïÑÔ
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

97¹ú¼ÊÍøÂç¸ßÐÔÄÜÍøÂç¼Æ»®£¬ÎªAIGCÂòͨ ¡°Èζ½¶þÂö¡±

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾ Ðû²¼Ê±¼ä£º2023-03-20
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

СÐò

AIGC£¨AI-Generated Content£¬È˹¤ÖÇÄÜÉú²úÄÚÈÝ£©½üÆÚÉú³¤Ñ¸ÃÍ£¬µü´úËÙÂʸüÊÇ·ºÆðÖ¸Êý¼¶µÄ±¬·¢Ê½ÔöÌí ¡£ÆäÖУ¬GPT-4ºÍÎÄÐÄÒ»ÑÔµÄÍÆ³öÒýÆðÁËÈËÃÇ¶ÔÆäÉÌÒµ¼ÛÖµºÍÓ¦Óó¡¾°µÄ¸ß¶È¹Ø×¢ ¡£Ëæ×ÅAIGCµÄÉú³¤£¬ÑµÁ·Ä£×Ó²ÎÊý¹æÄ£´ÓǧÒÚµ½ÍòÒÚ¼¶±ð£¬µ×²ãGPUÖ§³Ö¹æÄ£Ò²µÖ´ïÁËÍò¿¨¼¶±ð ¡£Óɴ˵¼ÖµÄÍøÂç¹æÄ£Ò»Ö±Ôö´ó£¬ÍøÂç½Úµã¼äÍ¨Ñ¶ÃæÁÙ×ÅÔ½À´Ô½´óµÄÌôÕ½ ¡£ÔÚ´ËÅä¾°Ï£¬ÔõÑùÌáÉýAI·þÎñÆ÷ÅÌËãÄÜÁ¦ºÍ×éÍøÍ¨Ñ¶ÄÜÁ¦²¢¼æ¹Ë±¾Ç®£¬ÒѳÉΪĿ½ñÈ˹¤ÖÇÄÜÁìÓòµÄÖ÷ÒªÑо¿Æ«ÏòÖ®Ò» ¡£

97¹ú¼ÊÍøÂçÕë¶ÔAIGCËãÁ¦¡¢GPUʹÓÃÂÊÓëÍøÂçµÄ¹ØÏµ£¬ÒÔ¼°Ö÷Á÷HPC×éÍøÃæÁÙµÄÌôÕ½£¬ÍƳöÁËÒµ½çÏȽøµÄ“ÖÇËÙ”DDC£¨Distributed Disaggregated Chassis£¬ÂþÑÜʽÊèɢʽ»úÏ䣩¸ßÐÔÄÜÍøÂç¼Æ»®£¬ÎªAIGCÓªÒµÂòͨ“Èζ½¶þÂö”£¬ÖúÁ¦ËãÁ¦Í»·ÉÃͽø ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

97¹ú¼ÊÍøÂçDDC²úÆ·ÅþÁ¬·½·¨Ê¾Òâͼ

AIGCËãÁ¦¡¢GPUʹÓÃÂÊÓëÍøÂçµÄ¹ØÏµ

ChatGPTµÄѵÁ·Ê±¼äºÍGPUʹÓÃÂʵĹØÏµ

ÒÔChatGPTΪÀý£¬ÔÚËãÁ¦·½Ã棬ʹÓÃ΢ÈíAzure AI³¬Ëã»ù´¡ÉèÊ©£¨ÓÉ10000¿é V100 GPU×é³ÉµÄ¸ß´ø¿í¼¯Èº£©ÉϾÙÐÐѵÁ·£¬×ÜËãÁ¦ÏûºÄÔ¼3640PF-days£¨¼´Ã¿ÃëÒ»ÍòÍòÒÚ´ÎÅÌË㣬ÔËÐÐ3640Ì죩£¬ÕâÀï×ö¸ö¹«Ê½»»ËãÒ»ÏÂ10000¿éV100ÐèҪѵÁ·¶à¾Ã£º

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ChatGPTËãÁ¦ºÍѵÁ·Ê±¼ä±í

×¢£ºChatGPTËãÁ¦ÐèÇóÎªÍøÉÏ»ñÈ¡£¬Ôڴ˽ö¹©²Î¿¼ ¡£OpenAI ÔÚËûÃǵÄÎÄÕ“AI and Compute”ÖмÙÉèʹÓÃÂÊΪ 33% ¡£NVIDIA¡¢Ë¹Ì¹¸£ºÍ΢ÈíµÄÒ»×éÑо¿Ö°Ô±ÔÚÂþÑÜʽϵͳÉÏѵÁ·´óÐÍÓïÑÔÄ£×ÓµÄʹÓÃÂʵִïÁË 44% µ½ 52% ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ChatGPT¹ØÓÚѵÁ·Ê±¼äµÄ»Ø¸²

ƾ֤ChatGPTµÄ»Ø¸´À´¿´£¬½ÏÁ¿ÇкÏÉÏÃæ±í¸ñÅÌËã³öÀ´µÄʱ¼ä£¬Ê¹ÓÃÂÊÓ¦¸Ã»áÔÚ50%×óÓÒ ¡£

¿ÉÒÔ¿´³öÓ°ÏìÒ»¸öÄ£×ÓµÄѵÁ·Ê±³¤Ö÷ÒªÒòËØÔÚÓÚGPUµÄʹÓÃÂÊ£¬ÒÔ¼°GPU¼¯Èº´¦Öóͷ£ÄÜÁ¦ ¡£¶øÕâЩҪº¦Ö¸±êÓÖÓëÍøÂçЧÂÊÇ×½üÏà¹Ø ¡£ÍøÂçЧÂÊÊÇÓ°ÏìAI¼¯ÈºÖÐGPUʹÓÃÂʵÄÒ»¸öÖ÷ÒªÒòËØ ¡£ÔÚAI¼¯ÈºÖУ¬GPUͨ³£ÊÇÅÌËã½ÚµãµÄ½¹µã×ÊÔ´£¬ÓÉÓÚËüÃÇ¿ÉÒÔ¸ßЧµØ´¦Öóͷ£´ó¹æÄ£µÄÉî¶ÈѧϰʹÃü ¡£È»¶ø£¬GPUµÄʹÓÃÂÊÊܵ½¶à¸öÒòËØµÄÓ°Ï죬ÆäÖÐÍøÂçЧÂÊÊÇÒ»¸öÒªº¦ÒòËØ ¡£

ÍøÂçЧÂÊÓëGPUʹÓÃÂʵĹØÏµ

ÍøÂçÔÚAIѵÁ·ÖÐÊÎÑÝ×ÅÖÁ¹ØÖ÷ÒªµÄ½ÇÉ« ¡£AI¼¯ÈºÍ¨³£Óɶà¸öÅÌËã½ÚµãºÍ´æ´¢½Úµã×é³É£¬ÕâЩ½ÚµãÐèҪƵÈԵؾÙÐÐͨѶºÍÊý¾Ý½»Á÷ ¡£ÈôÊÇÍøÂçЧÂʵÍÏ£¬ÕâЩ½ÚµãÖ®¼äµÄͨѶ½«»á±äµÃ»ºÂý£¬Õ⽫ֱ½ÓÓ°Ïìµ½AI¼¯ÈºµÄËãÁ¦ ¡£

µÍЧµÄÍøÂç¿ÉÄܵ¼ÖÂÒÔÏÂÎÊÌ⣬´Ó¶ø½µµÍGPUʹÓÃÂÊ£º

Êý¾Ý´«Êäʱ¼äÔöÌí£ºÔÚµÍЧµÄÍøÂçÖУ¬Êý¾Ý´«ÊäµÄʱ¼ä½«»áÔöÌí ¡£µ±GPUÐèÒªÆÚ´ýÊý¾Ý´«ÊäÍê³Éºó²Å»ª¾ÙÐÐÅÌËãʱ£¬GPUʹÓÃÂʽ«»á½µµÍ£»

ÍøÂç´ø¿íÆ¿¾±£ºÔÚAI¼¯ÈºÖУ¬GPUͨ³£ÐèҪƵÈÔµØÓëÆäËûÅÌËã½Úµã¾ÙÐÐÊý¾Ý½»Á÷ ¡£ÈôÊÇÍøÂç´ø¿íȱ·¦£¬GPU½«ÎÞ·¨»ñµÃ×ã¹»µÄÊý¾Ý¾ÙÐÐÅÌË㣬´Ó¶øµ¼ÖÂGPUʹÓÃÂʽµµÍ£»

ʹÃüµ÷Àí²»Æ½ºâ£ºÔÚµÍЧµÄÍøÂçÖУ¬Ê¹Ãü¿ÉÄܻᱻ·ÖÅɵ½ÓëGPU²î±ðµÄÅÌËã½ÚµãÉÏ ¡£µ±ÐèÒª´ó×ÚµÄÊý¾Ý´«Êäʱ£¬Õâ¿ÉÄܻᵼÖÂGPUÏÐÖÃÆÚ´ý£¬´Ó¶ø½µµÍGPUʹÓÃÂÊ ¡£

ΪÁËÌá¸ßGPUʹÓÃÂÊ£¬ÐèÒªÓÅ»¯ÍøÂçЧÂÊ ¡£Õâ¿ÉÒÔͨ¹ý½ÓÄɸü¿ìµÄÍøÂçÊÖÒÕ¡¢ÓÅ»¯ÍøÂçÍØÆË½á¹¹¡¢ºÏÀíÉèÖôø¿íµÈÒªÁìÀ´ÊµÏÖ ¡£ÔÚѵÁ·Ä£×ÓÖУ¬ÂþÑÜʽѵÁ·µÄ²¢ÐжȣºÊý¾Ý²¢ÐС¢ÕÅÁ¿²¢ÐÐÓëÁ÷Ë®²¢ÐоöÒéÁËGPU´¦Öóͷ£µÄÊý¾ÝÖ®¼äµÄͨѶģ×Ó ¡£Ä£×ÓÖ®¼äµÄͨѶЧÂÊÊܵ½ÒÔϼ¸¸öÒòËØµÄÓ°Ï죺

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

Ó°ÏìͨѶµÄÒòËØ

ÆäÖУ¬´ø¿íºÍ×°±¸×ª·¢Ê±ÑÓÊܵ½Ó²¼þÏÞÖÆ£¬¶Ë´¦Öóͷ£Ê±ÑÓÊÜÊÖÒÕÑ¡Ôñ£¨TCP or RDMA£©Ó°Ï죬RDMA»á¸üµÍ£¬ÅŶӺÍÖØ´«ÔòÊܵ½ÍøÂçÓÅ»¯ºÍÊÖÒÕÑ¡ÔñµÄÓ°Ïì ¡£

ƾ֤Á¿»¯Ä£×Ó[1]£ºGPUʹÓÃÂÊ = GPUÄÚµü´úÅÌËãʱ¼ä/£¨GPUÄÚµü´úÅÌËãʱ¼ä+ÍøÂç×ÜÌåͨѶʱ¼ä£©À´ÅÌËãµÃ³öÒÔϽáÂÛ£º

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

´ø¿íÍÌÍÂÓëGPUʹÓÃÂʵÄÇúÏßͼ                                  ¶¯Ì¬Ê±ÑÓºÍGPUʹÓÃÂʵÄÇúÏßͼ

¿ÉÒÔ¿´µ½ÍøÂç´ø¿íÍÌÍ¡¢¶¯Ì¬Ê±ÑÓ£¨ÓµÈû/¶ª°ü£©¶ÔGPUʹÓÃÂÊÓ°ÏìÏÔ×Å ¡£

ƾ֤ͨѶ×ÜʱÑÓµÄ×é³ÉÀ´¿´£º

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ͨѶ×ÜʱÑÓ×é³Éͼ

¾²Ì¬Ê±ÑÓÏà½ÏÖ®ÏÂÓ°Ïì¸üС£¬ÒÔÊǸüÓ¦¸Ã×ÅÖØÈ¥Ë¼Á¿ÔõÑùïÔÌ­¶¯Ì¬Ê±ÑÓ£¬ÕâÑù¿ÉÒÔÓÐÓõÄÌáÉýGPUµÄʹÓÃÂÊ£¬´Ó¶øµÖ´ïÌáÉýËãÁ¦µÄÄ¿µÄ ¡£

Ö÷Á÷HPC×éÍøÃæÁÙµÄÌôÕ½

IB×éÍøÌÚ¹óÇҹرÕ

Infiniband×éÍøÊÇÄ¿½ñ¸ßÐÔÄÜÍøÂçµÄЧ¹û×îӎ⣬ʹÓó¬¸ß´ø¿íºÍ»ùÓÚCreditµÄ»úÖÆÈ·±£ÎÞÓµÈûºÍ³¬µÍʱÑÓ£¬¿ÉÊÇÒ²ÊÇ×îÌÚ¹óµÄ½â·¨£¬Ïà±Èͬ´ø¿íϹŰåÒÔÌ«ÍøµÄ×éÍø»á¹óÊý±¶ ¡£Í¬Ê±InfinibandÊÖÒչرÕ£¬ÒµÄÚÏÖÔÚ³ÉÊ칩ӦÉ̽ö1¼Ò£¬¹ØÓÚ×îÖÕÓû§À´Ëµ£¬ÎÞ·¨ÊµÏÖµÚ¶þ»õÔ´ ¡£

ÒÔÊÇÒµÄÚ´ó´ó¶¼Óû§»áÑ¡Ôñ¹Å°åÒÔÌ«Íø×éÍøµÄ¼Æ»® ¡£

PFCºÍECN¿ÉÄÜ´¥·¢½µËÙ

Ä¿½ñ¸ßÐÔÄÜÍøÂçÖ÷Á÷×éÍø¼Æ»®ÊÇ»ùÓÚRoCE v2À´×齨֧³ÖRDMAµÄÍøÂç ¡£ÆäÖÐÖ÷ÒªµÄÁ½Ïî´îÅäÊÖÒÕÊÇPFCºÍECN£¬Á½Õß¾ùÊÇΪÁË×èÖ¹Á´Â·ÖеÄÓµÈû¶ø±¬·¢µÄÊÖÒÕ ¡£

¶à¼¶PFC×éÍøÏ»áÕë¶Ô½»Á÷»úÈë¿Ú£¨Ingress£©ÓµÈû£¬Öð¼¶·´Ñ¹µ½Ô´¶Ë·þÎñÆ÷ÔÝÍ£·¢ËÍ£¬»º½âÍøÂçÓµÈû£¬¹æ±Ü¶ª°ü£»µ«¸Ã¼Æ»®Ôڶ༶×éÍøÏ¿ÉÄÜÅöÃæÁÙPFC Deadlockµ¼ÖÂRDMAÁ÷Á¿×èֹת·¢µÄΣº¦ ¡£

ͼƬ97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

PFCÊÂÇé»úÖÆÊ¾Òâͼ

¶øECNÔò»á»ùÓÚ¶Ô½»Á÷»ú³ö¿Ú£¨Egress£©ÓµÈûµÄÄ¿µÄ¶Ë¸ÐÖª£¬Ö±½ÓÌìÉúÒ»¸öRoCEv2 CNP°ü֪ͨԴ¶Ë½µËÙ£¬Ô´·þÎñÆ÷ÊÕµ½CNP±¨ÎÄ£¬¾«×¼½µµÍ¶ÔÓ¦QPµÄ·¢ËÍËÙÂÊ£¬»º½âÓµÈûµÄͬʱ×èÖ¹ÎÞ²î±ð½µËÙ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ECN±ê¼ÇλʾÒâͼ

ÕâÁ½ÏîÊÖÒÕ×Ô¼º²¢Ã»ÓÐʲôÎÊÌ⣬¶¼ÊÇΪÏàʶ¾öÓµÈû¶ø½µÉúµÄÊÖÒÕ£¬¿ÉÊǽÓÄÉÕâÖÖÊÖÒÕºó¿ÉÄÜ»á±»ÍøÂçÖпÉÄܱ¬·¢µÄÓµÈû¶øÆµÈÔ´¥·¢£¬×îÖջᵼÖÂÔ´¶ËÔÝÍ£»ò½µËÙ·¢ËÍ£¬Í¨Ñ¶´ø¿í»á½µµÍ£¬»á¶ÔGPUʹÓÃÂʱ¬·¢½ÏÁ¿´óµÄÓ°Ï죬´Ó¶øÔì³ÉÕû¸ö¸ßÐÔÄÜÍøÂçµÄËãÁ¦±»À­µÍ ¡£

ECMP²»Æ½ºâ¿ÉÄܻᵼÖÂÓµÈû

ÔÚAIѵÁ·ÅÌËãÖлáÓÐAll-ReduceºÍAll-to-AllÁ½ÖÖÖ÷ÒªµÄÄ£×Ó£¬Á½ÖÖÄ£×Ó¶¼ÐèҪƵÈԵĴÓÒ»¸öGPUµ½ÁíÍâ¶à¸öGPU¾ÙÐÐͨѶ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

All-to-AllÄ£×Ó                       All-ReduceÄ£×Ó

ÔڹŰå×éÍøÏ£¬ToRºÍLeaf×°±¸½ÓÄÉ·ÓÉ+ECMPµÄ×éÍøÄ£Ê½£¬ECMP»á»ùÓÚÁ÷¾ÙÐйþÏ£¸ºÔØÑ¡Â·£¬ÓÐÒ»ÖÖ¼«¶ËÇéÐξÍÊÇijһÌõECMPÁ´Â·ÓÉÓÚÒ»Ìõ´óÏóÁ÷¶øÅÜÂú£¬ÆäÓà¶àÌõECMPÁ´Â·Ïà¶Ô¿ÕÏУ¬Ôì³É¸ºÔز»¾ùµÄÇéÐÎ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

¹Å°åECMP°²ÅÅͼ

ÔÚÄÚ²¿Ä£Äâ8ÌõECMPÁ´Â·µÄ²âÊÔÇéÐÎÏ£¬²âÊÔЧ¹ûÈçÏ£º

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ECMPÁ÷Á¿²âÊÔЧ¹û

¿ÉÒÔ¿´³ö£¬»ùÓÚÁ÷µÄECMP»áÔì³É½ÏÏÔ×ŵÄij¼¸ÌõÁ´Â·Õ¼Óã¨ECMP1-5ºÍ1-6£©ºÍ¿ÕÏУ¨ECMP1-0ÖÁ1-3½Ï¿ÕÏУ©£¬¶øÔÚAll-ReduceºÍAll-to-AllµÄÁ½ÖÖÄ£×ÓÏ£¬ ¾ÍºÜÈÝÒ×Ôì³ÉÒ»Ìõõè¾¶ÓÉÓÚECMPµÄ¸ºÔز»¾ù¶øÓµÈû£¬Ò»µ©ÓµÈûÔì³ÉÖØ´«£¬¾Í»áÌáÉý×ÜÌåµÄͨѶ×ÜʱÑÓ£¬´Ó¶ø½µµÍGPUʹÓÃÂÊ ¡£

ÒÔÊÇ£¬ÎªÏàʶ¾ö´ËÀàÎÊÌ⣬Ñо¿½çÌá³öÁËphost¡¢Homa¡¢NDP¡¢1RMA ºÍ AeolusµÈ¸»ºñµÄ½â¾ö¼Æ»®£¬ËüÃÇÔÚ²î±ðˮƽÉϽâ¾öÁË incast£¬ »¹½â¾öÁ˸ºÔØÆ½ºâºÍµÍÑÓ³ÙÇëÇó/ÏìÓ¦Á÷Á¿µÄÎÊÌâ ¡£¿ÉÊÇÒ²´øÀ´ÁËеÄÌôÕ½£¬ÍùÍùÕâЩÑо¿µÄ¼Æ»®¶¼ÊÇÐèÒª¶Ëµ½¶ËÀ´½â¾öÎÊÌ⣬¶ÔÖ÷»ú¡¢Íø¿¨¡¢ÍøÂçµÄ¸Ä¶¯½Ï´ó£¬¹ØÓÚÒ»Ñùƽ³£Óû§¶øÑÔ£¬±¾Ç®½Ï¸ß ¡£

¿òʽ½»Á÷»ú×éAI¼¯ÈºµÄÌôÕ½

ÍâÑóÓв¿·Ö»¥ÁªÍø¹«Ë¾¼ÄÏ£ÍûÓÚʹÓýÓÄÉDNXоƬ֧³ÖVOQÊÖÒյĿòʽ½»Á÷»úÀ´½â¾ö¸ºÔز»Æ½ºâ´øÀ´µÄ´ø¿íʹÓÃÂʵ͵ÄÎÊÌ⣬µ«Ò²ÃæÁÙÒÔϼ¸¸öÌôÕ½ ¡£

À©Õ¹ÄÜÁ¦Ò»Ñùƽ³££¬»ú¿ò¾ÞϸÏÞÖÆÁË×î´ó¶Ë¿ÚÊý£¬ÈçÏë×ö¸ü´ó¹æÄ£µÄ¼¯Èº£¬ÐèÒªºáÏòÀ©Õ¹¶à¸ö»ú¿ò£¬Ò²»á±¬·¢¶à¼¶PFCºÍECMPµÄÁ´Â·£¬ÒÔÊÇ¿òÖ»ÊʺÏÓÚС¹æÄ£°²ÅÅ£»

×°±¸¹¦ºÄ´ó£¬»ú¿òÄÚÏß¿¨Ð¾Æ¬¡¢FabricоƬ¡¢µçÉȵÈÊýÄ¿Öڶ࣬µ¥×°±¸µÄ¹¦ºÄ¼«´ó£¬ÇáËÉÁè¼Ý2ÍòÍߣ¬ÓеÄÉõÖÁ3Íò¶àÍߣ¬¶Ô»ú¹ñµçÁ¦ÒªÇó¸ß£»

µ¥×°±¸¶Ë¿ÚÊýÄ¿¶à£¬¹ÊÕÏÓò´ó ¡£

ÒÔÊÇ»ùÓÚÒÔÉÏÔµ¹ÊÔ­ÓÉ£¬¿òʽװ±¸Ö»ÊʺÏС¹æÄ£°²ÅÅAIÅÌË㼯Ⱥ ¡£

ÐÂÐÎ̬DDC²úÆ·½µÉú£¬Ö§³ÖAIGC¸ßÐÔÄÜÍøÂç

DDCÊÇÒ»ÖÖÂþÑÜʽ½âñî»ú¿ò×°±¸µÄ½â¾ö¼Æ»®£¬½ÓÄɵÄоƬºÍÒªº¦ÊÖÒÕÓë¹Å°å¿òʽ½»Á÷»úÏÕЩÏàͬ£¬µ«DDC¼Ü¹¹¼òÆÓÖ§³Öµ¯ÐÔÀ©Õ¹ºÍ¹¦Ð§¿ìËÙµü´ú¡¢¸üÒ×°²ÅÅ¡¢µ¥»ú¹¦ºÄµÍ ¡£

ÈçÏÂͼËùʾ£¬ÓªÒµÏß¿¨×÷Ϊǰ¶Ë³ÉΪNCP½ÇÉ«£¬½»Á÷Íø°å×÷Ϊºó¶Ë³ÉΪNCF½ÇÉ«£¬Ô­ÏÈÁ½ÕßÖ®¼äµÄÅþÁ¬Æ÷×é¼þÏÖÔÚ±»¹âÏËÏßÀÂÈ¡´ú£¬Ô­Óпòʽװ±¸µÄ¹ÜÀíÒýÇæÔÚDDC¼Ü¹¹ÖÐÒ²³ÉΪÁËNCC¼¯ÖÐ/ÂþÑÜʽµÄ¹ÜÀí×é¼þ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

DDC²úÆ·ÅþÁ¬·½·¨Ê¾Òâͼ

DDCÖ§³Ö³¬´ó¹æÄ£°²ÅÅ

DDC¼Ü¹¹Ïà½ÏÓÚ¿òʽ¼Ü¹¹µÄÓÅÊÆÔÚÓÚ¿ÉÒÔÌṩµ¯ÐÔ¿ÉÀ©Õ¹ÐÔ£¬×éÍø¹æÄ £¿ÉÒÔÆ¾Ö¤AI¼¯Èº¾ÞϸÀ´ÎÞаѡÔñ ¡£

µ¥POD×éÍøÖУ¬½ÓÄÉ96̨NCP×÷Ϊ½ÓÈ룬ÆäÖÐNCPÏÂÐй²36¸ö200G½Ó¿Ú£¬ÈÏÕæÅþÁ¬AIÅÌË㼯ȺµÄÍø¿¨ ¡£ÉÏÐй²40¸ö200G½Ó¿Ú×î´ó¿ÉÒÔÅþÁ¬40̨NCF£¬NCFÌṩ96¸ö200G½Ó¿Ú£¬¸Ã¹æÄ£ÉÏÏÂÐдø¿íΪ³¬ËÙ±È1.1:1 ¡£Õû¸öPOD¿ÉÖ§³Ö3456¸ö200GÍøÂç½Ó¿Ú£¬Æ¾Ö¤Ò»Ì¨·þÎñÆ÷Åä8¿éGPUÀ´ÅÌË㣬¿ÉÖ§³Ö432̨AIÅÌËã·þÎñÆ÷ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

µ¥POD×éÍø¼Ü¹¹Í¼

¶à¼¶POD×éÍøÖУ¬¿ÉÒÔʵÏÖ»ùÓÚPODµÄ°´Ð轨Éè ¡£ÓÉÓڸó¡¾°PODÖÐNCF×°±¸ÒªÎþÉüÒ»°ëµÄSerDesÓÃÓÚÅþÁ¬µÚ¶þ¼¶µÄNCF£¬ÒÔÊÇ´Ëʱµ¥POD½ÓÄÉ48̨NCP×÷Ϊ½ÓÈ룬ÏÂÐй²36¸ö200G½Ó¿Ú£¬µ¥PODÄÚ¿ÉÒÔÖ§³Ö1728¸ö200G½Ó¿Ú ¡£Í¨¹ýºáÏòÔöÌíPODʵÏÖ¹æÄ£µÄÀ©ÈÝ£¬ÕûÌå×î´ó¿ÉÖ§³Ö10368¶à¸ö200GÍøÂç¶Ë¿Ú ¡£

NCPÉÏÐÐ40¸ö200G½ÓPODÄÚ40̨NCF£¬PODÄÚNCF½ÓÄÉ48¸ö200G½Ó¿ÚÏÂÐУ¬48¸ö200G½Ó¿Ú·ÖΪ16¸öÒ»×éÉÏÐе½µÚ¶þ¼¶µÄNCF ¡£µÚ¶þ¼¶NCF½ÓÄÉ40¸öÆ½Ãæ£¬Ã¿¸öÆ½Ãæ3̨µÄÉè¼Æ£¬»®·Ö¶ÔÓ¦ÔÚPODÄÚµÄ40̨NCF ¡£

Õû¸öÍøÂçµÄPODÄÚʵÏÖÁ˳¬ËÙ±È1.1:1£¬¶øÔÚPODºÍ¶þ¼¶NCFÖ®¼äʵÏÖÁË1:1µÄÊÕÁ²±È ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

200GµÄÍøÂç¶Ë¿Ú¼æÈÝ100GÍø¿¨½ÓÈë£¬ÌØÊâÇéÐÎÏ¿ÉʹÓÃ1·Ö2»ò1·Ö4ÏßÀ¼æÈÝ25/50GÍø¿¨ ¡£

»ùÓÚVOQ+Cell»úÖÆ¸ºÔظüƽºâ£¬¶ª°üÂʸüµÍ

ÒÀÍÐ·ÖÆ¬ºóµÄCellsת·¢»úÖÆ¾ÙÐж¯Ì¬¸ºÔØÆ½ºâ£¬ÊµÏÖÑÓ³ÙµÄÎȹÌÐÔ£¬½µµÍÁ˲î±ðÁ´Â·µÄ´ø¿í·åÖµ²î ¡£

ת·¢Á÷³ÌÈçͼËùʾ£º

Ê×ÏÈ·¢ËͶ˴ÓÍøÂçÖÐÎüÊÕÊý¾Ý°ü²¢·ÖÀൽVOQsÖд洢£¬ÔÚ·¢ËÍÊý¾Ý°ü֮ǰ»áÏÈ·¢ËÍCredit±¨ÎÄÈ·¶¨ÎüÊÕ¶ËÊÇ·ñÓÐ×ã¹»µÄ»º´æ¿Õ¼ä´¦Öóͷ£ÕâЩ±¨ÎÄ£»

ÈôÊÇ¿ÉÒÔÔò½«Êý¾Ý°ü·ÖƬ³ÉCells²¢ÇÒ¶¯Ì¬¸ºÔØÆ½ºâµ½ÖÐÐĵÄFabric½Úµã ¡£ÕâЩCellsÔÚÎüÊÕ¶Ë»á¾ÙÐÐÖØ×éºÍ´æ´¢£¬½ø¶ø×ª·¢µ½ÍøÂçÖÐ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

CellsÊÇ»ùÓÚÊý¾Ý°üµÄÇÐÆ¬ÊÖÒÕ£¬Ò»Ñùƽ³£¾ÞϸΪ 64-256Byte ¡£

ÇÐÆ¬ºóµÄCellsƾ֤reachability table ÖÐ cell  destination µÄÅÌÎÊÀ´¾öÒéÔõÑùת·¢£¬²¢½ÓÄÉÂÖѯµÄ»úÖÆ·¢ËÍ ¡£ÕâÑù×öµÄÀûÒæÏà±ÈECMP°´Á÷¾ÙÐйþÏ£ÅÌËãºóÑ¡ÔñijһÌõ·µÄģʽ£¬ÇÐÆ¬ºóµÄCells¸ºÔØ»á³ä·ÖʹÓõ½Ã¿Ò»ÌõÉÏÐÐÁ´Â·£¬ËùÓÐÉÏÐÐÁ´Â·µÄ´«ÊäÊý¾ÝÁ¿»á½üËÆÏàµÈ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ÈôÊÇÎüÊÕ¶ËÔÝʱûÄÜÁ¦´¦Öóͷ£±¨ÎÄ£¬±¨ÎÄ»áÔÚ·¢ËͶ˵ÄVOQÖÐÔݴ棬²¢²»»áÖ±½Óת·¢µ½ÎüÊն˵¼Ö¶ª°üÎÊÌâµÄ±¬·¢£¬Ã¿Æ¬DNXоƬ¿ÉÒÔÌṩоƬÄÚOCB»º´æÒÔ¼°Æ¬Íâ8GBµÄHBM¸ßËÙ»º´æ£¬¶Ô200G¶Ë¿ÚÏ൱ÓÚ¿ÉÒÔ»º´æ150ms×óÓÒµÄÊý¾Ý ¡£Ö»Óе±¶Ô¶ËCredit±¨ÎÄÃ÷È·¿ÉÒÔ½ÓÊÜʱ²Å»á·¢ËÍ ¡£ÕâÑùµÄ»úÖÆÏ£¬³ä·ÖʹÓûº´æ¿ÉÒÔ´ó·ù¶ÈïÔÌ­¶ª°ü£¬ÉõÖÁ²»»á±¬·¢¶ª°üÇéÐÎ ¡£ïÔÌ­Êý¾ÝÖØ´«£¬ÕûÌåͨѶʱÑÓ¸üÎȹ̸üµÍ£¬´Ó¶ø¿ÉÒÔÌá¸ß´ø¿íʹÓÃÂÊ£¬½ø¶øÌáÉýÓªÒµÍÌÍÂЧÂÊ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

PFCµ¥Ìø°²ÅÅϲ»»á±¬·¢ËÀËø

ƾ֤DDCµÄÂß¼­À´¿´£¬ËùÓÐNCPºÍNCF¿ÉÒÔ¿´³Éһ̨װ±¸£¬ÒÔÊÇÔÚ´ËÍøÂçÖа²ÅÅRDMAÓòºó£¬Ö»ÔÚÕë¶Ô·þÎñÆ÷µÄ½Ó¿Ú´¦±£´æ1¼¶µÄPFC£¬²»»áÏñ¹Å°åÍøÂçÒ»Ñù±¬·¢¶à¼¶PFCµÄÑ¹ÖÆÓëËÀËø ¡£ÁíÍâÆ¾Ö¤DDCµÄÊý¾Ýת·¢»úÖÆ£¬¿ÉÔÚ½Ó¿Ú´¦°²ÅÅECN£¬Ò»µ©ÔÚÄÚ²¿µÄCredit»ººÍ´æ»úÖÆÎÞ·¨Ö§³ÖÍ»·¢Á÷Á¿£¬¿ÉÒÔÏò·þÎñÆ÷¶Ë·¢ËÍCNP±¨ÎÄÒªÇó½µËÙ£¨Í¨³£ÇéÐÎÏÂÔÚAIµÄͨѶģ×ÓÏ£¬All-to-AllºÍAll-Reduce+CellÇÐÆ¬¿ÉÒÔ½«Á÷Á¿¾¡¿ÉÄܵį½ºâ£¬ºÜÄÑ·ºÆð1¸ö¶Ë¿Ú±»´òÂúµÄÇéÐΣ¬ÒÔÊÇECNÔÚ´ó¶¼ÇéÐοÉÒÔ²»ÉèÖã© ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

ÎÞNCCÉè¼Æ£¬½ÓÄÉÂþÑÜʽOSÌáÉý¿É¿¿ÐÔ

ÔÚ¹ÜÀí¿ØÖÆÆ½ÃæÉÏ£¬ÎªÏàʶ¾ö¹ÜÀíÍø¹ÊÕÏÒÔ¼°NCCµ¥µã¹ÊÕϵÄÓ°Ï죬ÎÒÃÇ×÷·ÏÁËNCCµÄ¼¯ÖпØÖÆÃ棬¹¹½¨ÁËÂþÑÜʽOS£¬Í¨¹ýSDNÔËά¿ØÖÆÆ÷ͨ¹ý±ê×¼½Ó¿Ú£¨Netconf¡¢GRPCµÈ£©ÉèÖùÜÀí×°±¸£¬Ã¿Ì¨NCPºÍNCF×ÔÁ¦¹ÜÀí£¬ÓÐ×ÔÁ¦µÄ¿ØÖÆÃæºÍ¹ÜÀíÃæ ¡£

²âÊÔ±ÈÕÕЧ¹û

´Ó¼Æ»®ÀíÂÛÉÏ˵£¬DDCÓµÓÐÖ§³Öµ¯ÐÔÀ©Õ¹ºÍ¹¦Ð§¿ìËÙµü´ú¡¢¸üÒ×°²ÅÅ¡¢µ¥»ú¹¦ºÄµÍµÈÖÚ¶àÓÅÊÆ£»µ«´ÓÏÖʵ½Ç¶È³ö·¢£¬¹Å°å×éÍøÒ²ÓµÓÐÖîÈçÊÐÃæ¿ÉÑ¡Æ·ÅÆºÍ²úÆ·õè¾¶½Ï¶à¡¢¿ÉÖ§³Ö¸ü´ó¹æÄ£µÄ¼¯ÈºµÈÊÖÒÕ³ÉÊì´øÀ´µÄÓÅÊÆ ¡£Òò´ËÔÚ¿Í»§ÃæÁÙÏîÄ¿ÐèÇóʱÊÂʵÊÇÑ¡Ôñ¸ü¸ßÐÔÄܵÄDDC£¬Õվɸü´ó¹æÄ£°²ÅŵĹŰå×éÍø£¬¿ÉÒԲο¼ÏÂÃæµÄ±ÈÕÕ¼°²âÊÔЧ¹û£º

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

¹Å°å×éÍøÓëDDC²âÊÔ±ÈÕÕЧ¹ûͼ

ͬʱÎÒÃÇʹÓÃOpenMPI²âÊÔÌ×¼þ¾ÙÐÐÁË¿òʽװ±¸£¨¿òʽװ±¸ºÍDDCÔ­ÀíÏàͬ£¬±¾´Î½ÓÄÉ¿òʽ²âÊÔ£©ºÍ¹Å°å×éÍø×°±¸µÄ±ÈÕÕÄ£Äâ²âÊÔ£¬½áÂÛÊÇÔÚAll-to-All³¡¾°Ï£¬Ïà½ÏÓڹŰåµÄ×éÍø£¬¿òʽװ±¸´ø¿íʹÓÃÂÊÌáÉýÔ¼20%£¨¶ÔÓ¦GPUʹÓÃÂÊÌáÉý8%×óÓÒ£© ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

¿òʽװ±¸ºÍ¹Å°å×éÍø×°±¸µÄ±ÈÕÕÄ£Äâ²âÊÔ

97¹ú¼Ê×°±¸ÏÈÈÝ

»ùÓÚ¶Ô¿Í»§ÐèÇóµÄÉî¿ÌÃ÷È·£¬97¹ú¼ÊÍøÂçÒѾ­ÂÊÏÈÍÆ³öÁËÁ½¿î¿É½»¸¶²úÆ·£¬»®·ÖÊÇ200G NCP½»Á÷»úºÍ200G NCF½»Á÷»ú ¡£

NCP£ºRG-S6930-36DC40F1½»Á÷»ú

¸Ã½»Á÷»ú2U¸ß¶È£¬Ìṩ36¸ö200GµÄÃæ°å¿Ú£¬40¸ö200GµÄFabricÄÚÁª¿Ú£¬4¸öµçÉȺÍ2¸öµçÔ´ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

NCF£ºRG-X56-96F1½»Á÷»ú

¸Ã½»Á÷»ú4U¸ß¶È£¬Ìṩ96¸ö200GµÄFabricÄÚÁª¿Ú£¬8¸öµçÉȺÍ4¸öµçÔ´ ¡£

97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

δÀ´97¹ú¼ÊÍøÂ绹»á¼ÌÐøÑз¢¡¢ÍƳö400G¶Ë¿ÚÐÎ̬²úÆ·£¬¾´ÇëÆÚ´ý ¡£

½áÓï

97¹ú¼ÊÍøÂ磨֤ȯ´úÂ룺301165£©×÷ΪÐÐÒµÏòµ¼Õߣ¬Ò»Ö±ÖÂÁ¦ÓÚÌṩ¸ßÆ·ÖÊ¡¢¸ß¿É¿¿ÐÔµÄÍøÂç×°±¸Ï¢Õù¾ö¼Æ»®£¬ÒÔÖª×ã¿Í»§¹ØÓÚÖÇËãÖÐÐÄÒ»Ö±Ìá¸ßµÄÐèÇó ¡£ÔÚÍÆ³ö“ÖÇËÙ“DDC½â¾ö¼Æ»®µÄͬʱ£¬97¹ú¼ÊÍøÂçÒ²ÔÚÆð¾¢Ì½Ë÷ºÍ¿ª·¢¹Å°å×éÍøÖеĶËÍøÓÅ»¯¼Æ»®£¬Í¨¹ý³ä·ÖʹÓ÷þÎñÆ÷ÖÇÄÜÍø¿¨´îÅäÍøÂç×°±¸Ð­ÒéµÄÓÅ»¯£¬ÊµÏÖÕûÍø´ø¿íʹÓÃÂÊÌáÉý£¬×ÊÖú¿Í»§¸ü¿ìÓ­À´AIGCÖÇËãʱ´ú ¡£

²Î¿¼ÎÄÏ×£º

[1]Deepak Narayanan, Mohammad Shoeybi, Jared Casper£¬Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM£¬arXiv:2104.04473v5 [cs.CL] 23 Aug 2021

¹Ø×¢97¹ú¼Ê
¹Ø×¢97¹ú¼Ê¹ÙÍøÎ¢ÐÅ
ËæÊ±Ïàʶ¹«Ë¾×îж¯Ì¬
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾ 97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾

·µ»Ø¶¥²¿

ÊÕÆð
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾
ÎĵµÆÀ¼Û
¸Ã×ÊÁÏÊÇ·ñ½â¾öÁËÄúµÄÎÊÌâ £¿
Äú¶ÔÄ¿½ñÒ³ÃæµÄÖª×ã¶ÈÔõÑù £¿
²»Õ¦µÎ
ºÜÊǺÃ
ÄúÖª×ãµÄÔµ¹ÊÔ­ÓÉÊÇ£¨¶àÑ ¡£© £¿
Äú²»Öª×ãµÄÔµ¹ÊÔ­ÓÉÊÇ£¨¶àÑ ¡£© £¿
ÄúÊÇ·ñÉÐÓÐÆäËûÎÊÌâ»ò½¨Òé £¿
ΪÁË¿ìËÙ½â¾ö²¢»Ø¸´ÄúµÄÎÊÌ⣬Äú¿ÉÒÔÁôÏÂÁªÏµ·½·¨
ÓÊÏä
ÊÖ»úºÅ
ллÄúµÄ·´À ¡£¡
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾
97¹ú¼Ê¡¤(ÖйúÇø)¼¯ÍŹٷ½ÍøÕ¾
ÇëÑ¡Ôñ·þÎñÏîÄ¿
¹Ø±Õ×Éѯҳ
ÊÛǰ×Éѯ ÊÛǰ×Éѯ
ÊÛǰ×Éѯ
ÊÛºó·þÎñ ÊÛºó·þÎñ
ÊÛºó·þÎñ
Òâ¼û·´Ïì Òâ¼û·´Ïì
Òâ¼û·´Ïì
¸ü¶àÁªÏµ·½·¨
ÍøÕ¾µØÍ¼