ทำไมการคำนวณแบบกระจายเป็นตัวขับเคลื่อนสำคัญสำหรับการพัฒนา AI หรือความสามารถในการประมวลผลของเครือข่ายคอมพิวเตอร์?

บทความวันนี้เกี่ยวกับเซ็กเตอร์การคำนวณแบบกระจายที่กำลังเจริญขึ้นในโลกคริปโต พวกเราได้ลงทุนในทัศนคติพื้นฐานทางด้านโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าทางเลือกแบบกระจายสามารถแข่งขันในระดับเสรีได้อย่างไร

ส่งต่อชื่อเรื่องเดิม: Decentralised Compute

บทความวันนี้เกี่ยวกับภาครัฐที่เกิดขึ้นในส่วนของการคำนวณแบบกระจายในโลกคริปโต พวกเราจะศึกษาพื้นที่พื้นฐานของโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าสถานการณ์แบบกระจายสามารถแข่งขันได้ในระดับที่เป็นไปได้

เราสำรวจคำถามเช่น: ASI สามารถฝึกอบรมบนเครือข่ายกระจายได้หรือไม่? เครือข่ายคริปโตมีข้อดีที่ไม่เหมือนใครอย่างไร? และทำไมโครงสร้างคอมพิวเตอร์ที่ไม่จำกัดสิทธิ์อาจกลายเป็นสิ่งที่สำคัญต่อ AI เช่นเดียวกับ Bitcoin ต่อการเงิน

รูปแบบที่คุณจะสังเกตเห็นบ่อยในบทความคือการเติบโตแบบกำลังสองของทุกอย่างเกี่ยวกับ AI - การลงทุน การคำนวณ และความสามารถ สิ่งนี้สอดคล้องกับการฟื้นคืนในตลาดคริปโตและความสนใจทางจิตวิทยา เราตื่นเต้นมากเกี่ยวกับจุดที่สองนี้ของคลื่นเทคโนโลยีที่ใหญ่ใหญ่

สวัสดี!

ในวันที่แสงแดดส่องอย่างสดใสที่เมมฟิส รัฐเทนเนสซี, เครื่องบินลอยอยู่บนอาคารอุตสาหกรรมซึ่งผู้โดยสารกำลังถ่ายภาพอย่างระหว่างกัน. นี่ไม่ใช่ฉากจากการลับสงครามเย็นแต่เป็นเหตุการณ์ในปี 2024 ครับ ผลักเป้าหมายไม่ใช่ที่ตั้งทหารหรือสถานที่แข็งแรงที่เติมยูเรเนียมแต่เป็นโรงงานเครื่องใช้ไฟฟ้าเก่าที่ตอนนี้เป็นที่ตั้งของหนึ่งในเครื่องคอมพิวเตอร์ที่มีกำลังสูงที่สุดของโลก. ผู้โดยสารไม่ใช่สถาบันต่างด้าวแต่เป็นพนักงานของบริษัทศูนย์ข้อมูลคู่แข่ง

ทุกๆ สามสิบปี จะเกิดเทคโนโลยีที่เปลี่ยนแปลงเป็นเหตุการณ์ที่ไม่สามารถถูกทำลายได้ เหตุการณ์เช่นนี้จะเป็นการแข่งขันระหว่างองค์กรที่มีอิทธิพลมากที่สุดในโลกเพื่อเข้าใจเทคโนโลยีนี้ก่อนใคร ผลตอบแทนมีค่ามากมาย และผลที่เกิดขึ้นเมื่อล้มเหลวก็มีผลกระทบที่ทำลายทันที ดังนั้น องค์กรเหล่านี้จึงรีบรวบรวมทรัพยากรทั้งหมดที่มีอยู่ในอาร์เซนอลของตน - ความสามารถของมนุษย์และทุนทรัพย์ - เพื่อเป็นเจ้าของเทคโนโลยีนี้

ในศตวรรษที่ 20 มีเทคโนโลยีสองอย่างที่ตรงกับคำนิยามนี้ คืออาวุธนิวเคลียร์และการสำรวจอวกาศ การแข่งขันในการใช้เทคโนโลยีเหล่านี้เกี่ยวข้องกับประเทศที่มีอำนาจมากที่สุด ความสำเร็จของสหรัฐฯ ในทั้งสองสามารถเซ็มเมนต์สถานะเป็นกำลังอำนาจสุดยอดของโลก นำเข้ายุคที่ไม่เหมือนใคร สำหรับผู้แพ้ - เยอรมันนาซีและสหภาพโซเวียต ผลกระทบที่เกิดขึ้นมีผลร้ายอย่างมาก แม้ในบางครั้งอาจเป็นที่สิ้นสุด

โรงงาน K-25 ขนาดใหญ่ 44 เอเคอร์ในโอ๊คริดจังหวัดเทนเนสซี ประเทศสหรัฐอเมริกา ที่ผลิตยูเรเนียมสำหรับอาวุธนิวเคลียร์ครั้งแรกต้นฉบับ)

ความชนะของอเมริกาเสียเงินมาก. โครงการแมนฮัตตันใช้เงินเกือบ 2 พันล้านดอลลาร์ (ประมาณ 30 พันล้านดอลลาร์ที่ปรับเพื่อความเทียบเท่ากับการเงิน) และจ้างงานกว่า 120,000 คน - คนละคนในพันคนของชาวอเมริกันหนึ่งคน. การแข่งขันอวกาศต้องการทรัพยากรที่มากกว่านั้น. โปรแกรม Apollo ใช้เงิน 28 พันล้านดอลลาร์ในยุค 1960 (ประมาณ 300 พันล้านดอลลาร์ในสกุลเงินปัจจุบัน) และมีผู้ร่วมงานกว่า 400,000 คน - คนละคนใน 490 คนของชาวอเมริกัน. ในยอดสูงสุดของปี 1966 หน่วยงาน NASA ควบคุมงบประมาณของรัฐบาลสหรัฐฯ 4.4% ของงบประมาณทั้งหมด

Apollo 11 กำลังจะขึ้นอวกาศเพื่อภารกิจไปยังดวงจันทร์แหล่งกำเนิด)

การเปิดตัว ChatGPT ในปี 2022 ติดตามเริ่มขึ้นของการแข่งขันใหม่ที่มีสัดส่วนที่เปลี่ยนแปลงสำคัญกับการตามหาปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัย

คราวนี้ผู้เข้าแข่งขันไม่ใช่รัฐบาล (อย่างน้อยก็ยังไม่ใช่ในขณะนี้) แต่เป็นบริษัทที่ใหญ่ที่สุดในโลก (Microsoft, Google, Meta, Amazon), สตาร์ทอัพที่ฮอตที่สุด (OpenAI, Anthropic), และบุคคลที่รวยที่สุด (Elon Musk) ในขณะที่ Big Tech มีทุนทรัพย์ที่ไม่เคยมีมาก่อนในการสร้างพื้นฐานสำหรับการฝึกโมเดลที่มีพลังมากขึ้นอย่างไม่เคยมีมาก่อน สตาร์ทอัพกำลังรักษาrecord-breakingการระดมทุนเวนเชอร์แคปปิตอล อีลอนก็คือทำสิ่งที่ Elon ทำศูนย์ข้อมูลภายใต้การตรวจสอบความปลอดภัยเป็นของบริษัทของเขา xAI)

จากนั้นก็มีคนอื่น ๆ ไม่ว่าจะเป็นองค์กร บริษัท ขนาดเล็กและสตาร์ทอัพที่อาจไม่ปรารถนาที่จะสร้าง ASI แต่กระตือรือร้นที่จะควบคุมความสามารถล้ําสมัยที่ปลดล็อกโดย AI เพื่อเพิ่มประสิทธิภาพธุรกิจของพวกเขาทําลายอุตสาหกรรมหรือสร้างสิ่งใหม่ทั้งหมด รางวัลที่เป็นไปได้นั้นกว้างใหญ่มากจนทุกคนกําลังดิ้นรนเพื่อเรียกร้องส่วนแบ่งจากเศรษฐกิจที่ขับเคลื่อนด้วยเครื่องจักรอัจฉริยะใหม่นี้

หัวใจสําคัญของการปฏิวัติ AI คือองค์ประกอบที่สําคัญที่สุด: หน่วยประมวลผลกราฟิก (GPU) เดิมทีออกแบบมาเพื่อขับเคลื่อนวิดีโอเกมชิปคอมพิวเตอร์เฉพาะนี้ได้กลายเป็นสินค้าที่ร้อนแรงที่สุดในโลก ความต้องการ GPU นั้นล้นหลามจน บริษัท ต่างๆมักอดทน รายชื่อที่ต้องรอนานหลายเดือนเพียงเพื่อซื้อบางส่วน ความต้องการนี้ทำให้ NVIDIA ผู้ผลิตหลักของพวกเขา ได้รับการยิงยาวเข้าไปในตำแหน่งของบริษัทมูลค่าที่สูงที่สุดในโลก

สําหรับธุรกิจที่ไม่สามารถหรือไม่เต็มใจที่จะซื้อ GPU โดยตรงการเช่าพลังการประมวลผลได้กลายเป็นตัวเลือกที่ดีที่สุดต่อไป สิ่งนี้ได้กระตุ้นการเพิ่มขึ้นของผู้ให้บริการคลาวด์ AI ซึ่งเป็น บริษัท ที่ดําเนินงานศูนย์ข้อมูลที่ซับซ้อนซึ่งปรับให้เหมาะกับความต้องการด้านการคํานวณของ AI บูม อย่างไรก็ตามความต้องการที่เพิ่มขึ้นและลักษณะที่คาดเดาไม่ได้หมายความว่าไม่มีการรับประกันราคาหรือความพร้อมใช้งาน

I ถกเถียงว่าสกุลเงินดิจิทัลทำหน้าที่เป็นเทคโนโลยี "Coasian" ที่ออกแบบมาเพื่อ "เจียมของลื่น ปูถนน และเสริมสร้างสะพาน" เพื่อให้นวัตกรรมที่รบกวนเกิดขึ้นได้ ส่วน AI กำลังเกิดขึ้นเป็นแรงกระตุ้นของยุคเรา ความขาดแคลนและค่าใช้จ่ายที่สูงของการเข้าถึง GPU เป็นอุปสรรคของนวัตกรรมหลายราย เจ้าหน้าที่ของซีรีย์คริปโตกำลังเข้ามาแก้ไขปัญหาเหล่านี้ด้วยสิ่งสร้างสรรค์ที่ใช้เทคโนโลยีบล็อกเชน

ในบทความวันนี้เราเริ่มถอยห่างจาก crypto เพื่อตรวจสอบพื้นฐานของโครงสร้างพื้นฐาน AI สมัยใหม่ - เครือข่ายประสาทเทียมเรียนรู้อย่างไรทําไม GPU จึงมีความสําคัญและศูนย์ข้อมูลในปัจจุบันมีการพัฒนาอย่างไรเพื่อตอบสนองความต้องการด้านการคํานวณที่ไม่เคยมีมาก่อน จากนั้นเราจะดําดิ่งสู่โซลูชันการประมวลผลแบบกระจายอํานาจสํารวจว่าพวกเขาสามารถแข่งขันกับผู้ให้บริการแบบดั้งเดิมได้จริงหรือไม่ข้อได้เปรียบที่ไม่เหมือนใครของเครือข่าย crypto ที่นําเสนอและทําไมแม้ว่าพวกเขาจะไม่ให้ AGI แก่เรา แต่ก็ยังจําเป็นต่อการทําให้แน่ใจว่าทุกคนสามารถเข้าถึงประโยชน์ของ AI ได้

เรามาเริ่มต้นด้วยเหตุผลที่ GPUs มีความสำคัญมากในที่แรก

GPUs

นี่คือ David รูปปั้นจากหินอ่อนสูง 17 ฟุต น้ำหนัก 6 ตัน ที่ถูกสร้างขึ้นโดยนักปั้นอัจฉริยะชาวอิตาเลียนของยุค Renaissance ซึ่งแสดงให้เห็นถึงฮีโร่ทางพระคำจากเรื่องราวเกี่ยวกับ David กับ Goliath และถูกพิจารณาว่าเป็นเรื่องสร้างสรรค์สุดยอดเนื่องจากการแสดงตัวอักษรของมนุษย์ที่ไม่มีตำหนิและการใส่ใจอย่างล้ำลึกและรายละเอียด

เหมือนกับปูนหินหลักทั้งหมด ดาวิดเริ่มต้นจากชิ้นหินคาราราขนาดใหญ่ที่ไม่เรียบร้อย ในการเป็นรูปที่ยอดเยี่ยมสุดท้ายของมัน ไมเคิลแองเจโลต้องทำการล้างแรงโดยวิธีการตัดกระจายในหิน โดยเริ่มต้นด้วยการเสียบสีกว้างเพื่อสร้างรูปพื้นฐานของรูปร่างมนุษย์ จากนั้นเขาก้าวหน้าไปสู่รายละเอียดที่สูงขึ้นเรื่อยๆ - เส้นโค้งของกล้ามเนื้อ เส้นเลือดที่ตึงตัว เสียงแสดงออกที่ละเอียดอ่อนในดวงตา ในขณะที่จำเป็น ใช้เวลาสามปีให้ไมเคิลแองเจโลปลดปล่อยเดวิดออกจากหิน

แต่ทำไมถึงพูดถึงรูปปั้นหินอันเก่ากว่าพันปีในบทความเกี่ยวกับ AI?

เช่นเดวิดทุกเครือข่ายประสาทเริ่มต้นเป็นศักยภาพสุด pure - คอลเลคชันของโหนดที่เริ่มต้นด้วยตัวเลขสุ่ม (น้ำหนัก) เช่นเดียวกับบล็อกขนาดใหญ่ของหิน Carrara แบบไม่มีรูปร่าง

โมเดลดิบนี้ถูกป้อนข้อมูลการฝึกอบรมซ้ําๆ ซึ่งเป็นอินสแตนซ์ของอินพุตจํานวนนับไม่ถ้วนที่จับคู่กับเอาต์พุตที่ถูกต้อง จุดข้อมูลแต่ละจุดที่ผ่านเครือข่ายทําให้เกิดการคํานวณหลายพันรายการ ในทุกโหนด (เซลล์ประสาท) การเชื่อมต่อขาเข้าจะคูณค่าอินพุตด้วยน้ําหนักของการเชื่อมต่อรวมผลิตภัณฑ์เหล่านี้และแปลงผลลัพธ์ผ่าน "ฟังก์ชั่นการเปิดใช้งาน" ที่กําหนดความแข็งแรงในการยิงของเซลล์ประสาท

เช่นเดียวกับมิเคลแองจ๊อเลาจะถอยหลังมองผลงานของเขาและให้การประเมินและปรับปรุงระบบปรับปรุงทางประวัติศาสตร์เรียนรู้หลังจากการผ่านไปทางข้างหน้าแต่ละครั้งเครือข่ายเปรียบเทียบผลลัพธ์กับคำตอบที่ถูกต้องและคำนวณขอบเขตของความผิดพลาดของมันผ่านกระบวนการที่เรียกว่า backpropagation มันวัดว่าแต่ละการเชื่อมต่อมีส่วนสําคัญอย่างไรต่อความผิดพลาดและเช่นในการโยธามิเคลแองจ๊อเลาทำการปรับปรุงค่าของมันถ้าการเชื่อมต่อนั้นทําให้การคาดการณ์ผิดพลาดมีผลกระทบลดลง ถ้ามันช่วยให้ได้คําตอบที่ถูกต้องมีผลกระทบเพิ่มขึ้น

เมื่อข้อมูลทั้งหมดผ่านเครือข่าย (เสร็จสิ้นขั้นตอนการเผยแพร่ไปข้างหน้าและข้างหลังหนึ่งขั้นตอนต่อจุดข้อมูล) จะเป็นจุดสิ้นสุดของ "ยุค" กระบวนการนี้ทําซ้ําหลายครั้งโดยแต่ละรอบจะขัดเกลาความเข้าใจของเครือข่าย ในช่วงยุคแรก ๆ การเปลี่ยนแปลงน้ําหนักนั้นน่าทึ่งเนื่องจากเครือข่ายทําการปรับเปลี่ยนในวงกว้างเช่นสิ่วตัวหนาตัวแรก ในยุคต่อมาการเปลี่ยนแปลงจะละเอียดยิ่งขึ้นโดยปรับแต่งการเชื่อมต่อเพื่อประสิทธิภาพสูงสุดเช่นเดียวกับการสัมผัสขั้นสุดท้ายที่ละเอียดอ่อนทําให้รายละเอียดของเดวิดออกมา

ในที่สุด หลังจากการทดลองซ้ำซ้อนหรือซ้ำซ้อนหลายล้านครั้ง โมเดลที่ได้รับการฝึกจะเกิดขึ้น อย่างเดวิดที่ยกย่องในรูปแบบที่สมบูรณ์ของมัน เครือข่ายประสาทเปลี่ยนแปลงจากเสียงรบกวนสุ่มเป็นระบบที่สามารถรู้จำรูปแบบ ทำนาย สร้างภาพของแมวขี่สกู๊ตเตอร์ หรือทำให้คอมพิวเตอร์เข้าใจและตอบสนองภาษามนุษย์ได้

ทำไมใช้ GPU?

ไมเคิลแองเจโลซึ่งทํางานคนเดียวกับเดวิดสามารถตีสิ่วได้ครั้งละหนึ่งครั้งโดยแต่ละครั้งต้องใช้การคํานวณมุมแรงและตําแหน่งที่แม่นยํา ความแม่นยําที่อุตสาหะนี้เป็นเหตุผลว่าทําไมเขาจึงใช้เวลาสามปีอย่างไม่รู้จักเหน็ดเหนื่อยในการทําผลงานชิ้นเอกของเขาให้สําเร็จ แต่ลองนึกภาพประติมากรที่มีทักษะเท่าเทียมกันหลายพันคนทํางานกับเดวิดในการประสานงานที่สมบูรณ์แบบ—ทีมหนึ่งบนลอนผมอีกทีมหนึ่งบนกล้ามเนื้อลําตัวและอีกหลายร้อยคนในรายละเอียดที่ซับซ้อนของใบหน้ามือและเท้า ความพยายามคู่ขนานดังกล่าวจะบีบอัดสามปีนั้นให้เหลือเพียงไม่กี่วัน

อย่างไรก็ตาม ในขณะที่ CPU เป็นทรงพลังและแม่นยำ แต่พวกเขาสามารถทำเพียงหนึ่งการคำนวณในเวลาเดียว การฝึกฝนเครือข่ายประสาทเทียมไม่ต้องการการคำนวณที่ซับซ้อนแต่ต้องการการคูณและการบวกจำนวนแสนล้านที่หลายๆ ครั้งในแต่ละโหนด ตัวอย่างเช่น เครือข่ายประสาทเทียมตัวอย่างที่กล่าวไว้ก่อนหน้านี้ ที่มีเพียง 18 โหนดและประมาณ 100 การเชื่อมต่อ (พารามิเตอร์) สามารถฝึกฝนบน CPU ได้ในเวลาระ reasonable.

อย่างไรก็ตาม โมเดลที่มีกำลังการทำงานที่สุดในปัจจุบัน เช่น GPT-4 ของ OpenAI มีพารามิเตอร์ 1.8 ล้านล้าน! แม้แต่โมเดลขนาดเล็กก็ต้องมีพารามิเตอร์อย่างน้อยหนึ่งพันล้าน การฝึกโมเดลเหล่านี้หนึ่งการคำนวณต่อหนึ่งครั้งจะใช้เวลาหลายศตวรรษ นี่คือสิ่งที่ GPU ทำได้ดี: พวกเขาสามารถทำการคำนวณทางคณิตศาสตร์ที่เรียบง่ายจำนวนมากพร้อมกัน ทำให้เหมาะสำหรับการประมวลผลโหนดของเครือข่ายประสาทหลายๆ โหนดพร้อมกัน

GPU รุ่นล่าสุดของ NVIDIA คือ B200 ประกอบด้วยมากกว่า 200 พันล้านตัวขยายและสนับสนุนการคำนวณแบบขนาน 2,250 ล้านครั้งต่อวินาที (2,250 TFLOPS) กราฟิกการ์ด B200 รุ่นเดียวสามารถจัดการรุ่นที่มีพารามิเตอร์มากถึง 740 พันล้านตัว สิ่งเหล่านี้แสดงให้เห็นถึงความสามารถทางวิศวกรรมที่สูงของยุคปัจจุบัน ซึ่งอธิบายว่าทำไม NVIDIA ได้เห็นการเพิ่มขึ้นของราคาหุ้นมากกว่า 2,500% ในระยะเวลา 5 ปี โดยขายแต่ละหน่วยในราคา 40,000 ดอลลาร์

เจ็นเซ็น ฮวัง นำเสนอ NVIDIA B200

แม้แต่เครื่องจักรที่น่าเกรงขามเหล่านี้ก็ไม่สามารถฝึกโมเดล AI เพียงอย่างเดียวได้ จําได้ว่าในระหว่างการฝึกอบรมอินสแตนซ์ข้อมูลแต่ละรายการจะต้องผ่านโมเดลในรอบไปข้างหน้าและข้างหลังทีละรายการ โมเดลภาษาขนาดใหญ่สมัยใหม่ (LLMs) ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ครอบคลุมอินเทอร์เน็ตทั้งหมด ตัวอย่างเช่น GPT-4 ประมวลผลโทเค็นประมาณ 12 ล้านล้านโทเค็น (ประมาณ 9 ล้านล้านคํา) และคาดว่าโมเดลรุ่นต่อไปจะรองรับโทเค็นได้มากถึง 100 ล้านล้านโทเค็น การใช้ GPU ตัวเดียวสําหรับข้อมูลปริมาณมหาศาลเช่นนี้ยังคงต้องใช้เวลาหลายศตวรรษ

คำตอบอยู่ในการเพิ่มชั้นของความสามารถในการประยุกต์ใช้พรัอลิซึม-การสร้างกลุ่ม GPU ที่งานฝึกอบรมถูกกระจายไประหว่าง GPU หลายตัวที่ทำงานร่วมกันเป็นระบบเดียวกัน ภารกิจการฝึกโมเดลสามารถถูกแบ่งขึ้นเป็นขั้นตอนได้ในทางที่สาม

Data Parallelism: หลาย GPU แต่ละตัวเก็บรักษาสำเนาแบบเต็มของโมเดลเนอรอลเน็ตเวิร์คในขณะที่ประมวลผลส่วนต่าง ๆ ของข้อมูลการฝึกอบรม แต่ละ GPU ประมวลผลชุดข้อมูลที่ได้รับมอบหมายอิสระกันก่อนที่จะซิงโครไนซ์เป็นระยะเวลาบางครั้งกับ GPU ทั้งหมดอื่น ๆ ในช่วงซิงโครไนเซชันนี้ GPU จะติดต่อสื่อสารกันเพื่อค้นหาค่าเฉลี่ยรวมของน้ำหนักและอัปเดตน้ำหนักแต่ละคนให้เหมือนกัน ด้วยเหตุนี้ GPU จะดำเนินการฝึกอบรมต่อที่ชุดข้อมูลของตัวเองก่อนเวลาที่จะซิงค์อีกครั้ง

เมื่อโมเดลมีขนาดใหญ่ขึ้น การคัดลอกเดียวสามารถกลายเป็นใหญ่เกินไปที่จะพอดีกับหนึ่ง GPU ตัวอย่างเช่น GPU ล่าสุดรุ่น B200 สามารถรองรับเพียง 740 พารามิเตอร์ล้านล้านในขณะที่โมเดล GPT-4 เป็นโมเดลพารามิเตอร์ 1.8 ล้านพันล้าน การแยกข้อมูลข้าม GPU แต่ละตัวไม่สามารถทำงานในกรณีนี้

Tensor Parallelism: วิธีการนี้จัดการกับข้อ จํากัด ของหน่วยความจําโดยการกระจายงานและน้ําหนักของแต่ละเลเยอร์รุ่นผ่าน GPU หลายตัว GPU แลกเปลี่ยนการคํานวณระดับกลางกับคลัสเตอร์ทั้งหมดในระหว่างทุกขั้นตอนการขยายพันธุ์ไปข้างหน้าและข้างหลัง โดยทั่วไปแล้ว GPU เหล่านี้จะถูกจัดกลุ่มในเซิร์ฟเวอร์แปดหน่วย ซึ่งเชื่อมต่อผ่าน NVLink ซึ่งเป็นการเชื่อมต่อระหว่าง GPU-to-GPU โดยตรงความเร็วสูงของ NVIDIA การตั้งค่านี้ต้องใช้แบนด์วิดท์สูง (สูงสุด 400 Gb/s) และการเชื่อมต่อที่มีเวลาแฝงต่ําระหว่าง GPU คลัสเตอร์เทนเซอร์ทําหน้าที่เป็น GPU ขนาดใหญ่ตัวเดียวได้อย่างมีประสิทธิภาพ

การแบ่งการประมวลผลแบบ Pipeline: วิธีนี้แบ่งโมเดลออกเป็นหลาย GPU โดยแต่ละ GPU จะจัดการเลเยอร์ที่กำหนดไว้เฉพาะ ข้อมูลจะไหลผ่าน GPU เหล่านี้ในลำดับสายซึ่งคล้ายกับการวิ่งรีเลย์ที่แต่ละนักวิ่ง (GPU) จัดการส่วนของตนเองก่อนที่จะส่งแถบไปต่อ การแบ่งการประมวลผลแบบ pipeline เป็นวิธีที่มีประสิทธิภาพมากในการเชื่อมต่อเซิร์ฟเวอร์ 8-GPU ต่างๆ ภายในศูนย์ข้อมูลโดยใช้เครือข่าย InfiniBand ความเร็วสูงสำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ แม้ว่าความต้องการในการสื่อสารจะเกินความสามารถของการประมวลผลแบบข้อมูลแบบขนาน แต่มันยังน้อยกว่าการแบ่งการประมวลผลแบบตรีนเซอร์ที่มีการแลกเปลี่ยน GPU อย่างหนัก

ขนาดของคลัสเตอร์ที่ทันสมัยนั้นน่าทึ่งมาก GPT-4 ที่มีพารามิเตอร์ 1.8 ล้าน และชั้น 120 ชั้น ต้องใช้ A100 GPUs จำนวน 25,000 เครื่องในการฝึกอบรม กระบวนการนี้ใช้เวลาสามเดือนและค่าใช้จ่ายเกิน 60 ล้านดอลลาร์ A100 เป็นรุ่นเก่าสองรุ่น; หากใช้ B200 GPUs รุ่นปัจจุบัน จะต้องใช้เพียงประมาณ 8,000 หน่วยและใช้เวลาในการฝึกอบรมเพียง 20 วันเท่านั้น แค่การสาธิตถึงความเร็วของ AI ที่เคลื่อนไหวได้อย่างรวดเร็ว

แต่คลาสของโมเดล GPT-4 นั้นเป็นของเล่นเก่าแล้ว การฝึกอบรมสำหรับรุ่นก้าวหน้าของโมเดลที่มีอยู่ในศูนย์ข้อมูลที่มีในตัวจำนวนมากถึง 100,000 B100 หรือ H100 GPUs (ส่วนหนึ่งเป็นรุ่นก่อนหน้า) กลุ่มเหล่านี้ซึ่งมีมูลค่าเกิน 4 พันล้านเหรียญอเมริกันในการลงทุนใน GPU คือเครื่องคอมพิวเตอร์ที่มีความสามารถที่สูงที่สุดของมนุษย์ สามารถให้พลังคำนวณต่อเนื่องมากถึง 4 เท่าของอุปกรณ์ที่เป็นเจ้าของโดยรัฐบาล

นอกเหนือจากการรักษาความปลอดภัยการประมวลผลดิบแล้วผู้ปรารถนา ASI ยังประสบปัญหาอื่นเมื่อพยายามตั้งค่าคลัสเตอร์เหล่านี้: ไฟฟ้า GPU แต่ละตัวใช้พลังงาน 700W เมื่อคุณรวม 100,000 คลัสเตอร์ทั้งหมด (รวมถึงฮาร์ดแวร์ที่รองรับ) จะใช้พลังงานมากกว่า 150MW การบริโภคนี้เท่ากับเมืองที่มีประชากร 300,000 คน ซึ่งเทียบได้กับนิวออร์ลีนส์หรือซูริก

ความบ้าบอยยังไม่สิ้นที่นี่ ส่วนใหญ่ผู้สมัคร ASI เชื่อว่ากฎหมายเกี่ยวกับการขยายมาตรา—ซึ่งแนะนำว่าประสิทธิภาพของโมเดลจะดีขึ้นอย่างที่คาดการณ์ได้เมื่อขนาดของโมเดล ขนาดของชุดข้อมูล และการคำนวณการฝึกฝนเพิ่มขึ้น—จะยังคงเป็นความจริง แผนการฝึกวิ่งของโมเดลที่มีพลังงานมากขึ้นก็ได้เริ่มมีการดำเนินการแล้ว ถึงปี 2025 คาดว่าค่าใช้จ่ายของแต่ละกลุ่มการฝึกฝนจะเกิน 10 พันล้านดอลลาร์ ถึงปี 2027 เกิน 100 พันล้านดอลลาร์ ขณะที่ตัวเลขเหล่านี้เข้าใกล้กับการลงทุนของรัฐบาลสหรัฐในโปรแกรมอพอลโล จึงเป็นชัดเจนว่าทำไมการบรรลุความสามารถทางปัญญาประดิษฐ์ (ASI) จึงเป็นการแข่งขันที่กำหนดค่าของยุคของเรา

Metrics for models starting GPT-5 are estimations

เนื่องจากการบริโภคไฟฟ้าเพิ่มขึ้นพร้อมกับขนาดของคลัสเตอร์ การรันการฝึกอบรมปีหน้าจะต้องใช้พลังงานกว่า 1GW ขึ้นไป ปีหลังจากนั้น 10GW หรือมากกว่า โดยไม่มีสัญญาณใด ๆ ที่บ่งชี้ถึงการขยายตัวนี้ลดลง คาดว่าศูนย์ข้อมูลจะมีการบริโภคประมาณ 4.5% ของผลิตภัณฑ์โลกโดย 2030. กริดไฟฟ้าที่มีอยู่,กำลังต่อสู้กับความต้องการของโมเดลปัจจุบันแล้วไม่สามารถสร้างพลังงานเพียงพอสำหรับคลัสเตอร์ในอนาคต นี้เป็นคำถามที่สำคัญ: พลังงานนี้จะมาจากที่ไหน? บิ๊กเทคกำลังนำเส้นทางสองทาง

ในระยะยาวทางออกเดียวที่เป็นไปได้คือสําหรับผู้ปรารถนา ASI ในการผลิตไฟฟ้าของตนเอง ด้วยความมุ่งมั่นด้านสภาพภูมิอากาศพลังงานนี้จะต้องมาจากแหล่งพลังงานหมุนเวียน พลังงานนิวเคลียร์โดดเด่นเป็นทางออกหลัก อเมซอน ซื้อเมื่อเร็วๆ นี้ศูนย์ข้อมูลที่มีพลังงานจากโรงไฟฟ้านิวเคลียร์มูลค่า 650 ล้านเหรียญสำหรับ Microsoftได้ว่าจ้างหัวหน้าเทคโนโลยีนิวเคลียร์และฟื้นฟูโรงไฟฟ้า Three Mile Island ที่มีความสำคัญในอดีต. Google มี ได้รับการได้มา หลายตัวของเครื่องกำเนิดพลังงานนิวเคลียร์ขนาดเล็ก จาก Kairos Power ของแคลิฟอร์เนีย Sam Altman จาก OpenAI ได้สนับสนุนสตาร์ทอัพด้านพลังงานอย่าง เฮลิออน, ExowattและOklo.

Microsoft กําลังเปิดโรงงานนิวเคลียร์ Three Mile Island อีกครั้ง (ภาพต้นฉบับ)

ในขณะที่เมล็ดพันธุ์ของพลังงานนิวเคลียร์กําลังถูกหว่านในขณะนี้ผลไม้ (หรือพลังงาน) จะใช้เวลาหลายปีในการแบกรับ แล้วความต้องการพลังงานสําหรับการสร้างโมเดลทันทีล่ะ? โซลูชันชั่วคราวเกี่ยวข้องกับการฝึกอบรมแบบกระจายในศูนย์ข้อมูลหลายแห่ง แทนที่จะมุ่งเน้นความต้องการพลังงานจํานวนมากในที่เดียว บริษัท ต่างๆเช่น Microsoft และ Google กําลังกระจายคลัสเตอร์การฝึกอบรมในหลายไซต์

แน่นอนว่าความท้าทายคือการทำให้ระบบกระจายเหล่านี้ทำงานร่วมกันได้อย่างมีประสิทธิภาพ แม้จะใช้ความเร็วของแสง ข้อมูลก็ใช้เวลาประมาณ 43 มิลลิวินาทีในการเดินทางไปกลับจากทางทิศตะวันออกของสหรัฐฯ ไปยังทางทิศตะวันตก - ซึ่งถือเป็นเวลานานในทางคอมพิวเตอร์อีกด้วย นอกจากนี้หากมีชิปเพียงหนึ่งอันที่ล้าหลังไปอย่างน้อย 10% ก็จะทำให้การรันการฝึกอบรมทั้งหมดช้าลงด้วยอัตราเดียวกัน

โซลูชันนี้อยู่ที่การเชื่อมต่อศูนย์ข้อมูลในหลายไซต์ด้วยเครือข่ายไฟเบอร์ออปติกความเร็วสูงและใช้เทคนิคการขนานที่กล่าวถึงก่อนหน้านี้เพื่อซิงโครไนซ์การทํางาน ความขนานของ Tensor ถูกนําไปใช้กับ GPU ภายในแต่ละเซิร์ฟเวอร์ทําให้สามารถทํางานเป็นหน่วยเดียวได้ ความขนานของไปป์ไลน์ที่มีความต้องการเครือข่ายต่ํากว่าถูกนํามาใช้เพื่อเชื่อมโยงเซิร์ฟเวอร์ภายในศูนย์ข้อมูลเดียวกัน สุดท้ายศูนย์ข้อมูลในสถานที่ต่างๆ (เรียกว่า "เกาะ") จะซิงโครไนซ์ข้อมูลเป็นระยะโดยใช้ความขนานของข้อมูล

ก่อนหน้านี้เราได้ระบุว่าการแบ่งงานข้อมูลไม่ได้มีประสิทธิภาพสำหรับ GPU แต่ละตัวเนื่องจากไม่สามารถรองรับโมเดลขนาดใหญ่ได้อิสระ อย่างไรก็ตาม เมื่อเราทำการแบ่งงานแบบเกาะเกี่ยวกับเกาะที่มีหลายพันหน่วยประมวลผล การฝึกอบรมข้อมูลถูกกระจายในแต่ละเกาะ และเกาะเหล่านี้จะทำการซิงโครไนซ์อย่างเป็นระยะห่างในการเชื่อมต่อใยแก้วออพติกที่สัมพันธ์เร็วกว่า (เมื่อเทียบกับ NVLink และ Infiniband)

ศูนย์ข้อมูล

เรามาเปลี่ยนศูนย์รวมใจความสนใจของเราจากการฝึกอบรมและหน่วยประมวลผลกราฟิก (GPU) ไปยังศูนย์ข้อมูลเอง

เมื่อยี่สิบปีที่แล้ว Amazon ได้เปิดตัว Amazon Web Services (AWS) ซึ่งเป็นหนึ่งในธุรกิจที่มีการเปลี่ยนแปลงมากที่สุดในประวัติศาสตร์ และสร้างอุตสาหกรรมใหม่ทั้งหมดที่เรียกว่าการประมวลผลบนระบบคลาวด์ ผู้นําระบบคลาวด์ในปัจจุบัน (Amazon, Microsoft, Google และ Oracle) มีอํานาจเหนือกว่าอย่างสะดวกสบาย โดยสร้างรายได้รวมต่อปีเกือบ 300 พันล้านดอลลาร์โดยมีอัตรากําไรขั้นต้น 30-40% ตอนนี้การเกิดขึ้นของ AI ได้สร้างโอกาสใหม่ ๆ ในตลาดที่ยังคงมีอํานาจเป็นส่วนใหญ่มานานหลายปี

ความต้องการทางกายภาพ ความซับซ้อนทางเทคนิค และเศรษฐศาสตร์ของศูนย์ข้อมูล AI ที่ใช้ GPU มีความแตกต่างอย่างมากจากเครื่องกลางทั่วไป

เราได้พูดคุยกันก่อนหน้านี้ว่า GPU ที่หิวพลังงานเป็นอย่างไร สิ่งนี้ทําให้ศูนย์ข้อมูล AI มีความหนาแน่นของพลังงานมากขึ้นและทําให้เกิดความร้อนมากขึ้น ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมใช้พัดลมขนาดยักษ์ (การระบายความร้อนด้วยอากาศ) เพื่อกระจายความร้อน แต่วิธีการนี้ไม่เพียงพอหรือมีศักยภาพทางการเงินสําหรับสิ่งอํานวยความสะดวก AI ศูนย์ข้อมูล AI กําลังใช้ระบบระบายความร้อนด้วยของเหลวที่บล็อกน้ํายึดติดกับ GPU และส่วนประกอบร้อนอื่น ๆ โดยตรงเพื่อกระจายความร้อนได้อย่างมีประสิทธิภาพและเงียบกว่า (B200 GPU มาพร้อมกับสถาปัตยกรรมในตัว) การสนับสนุนระบบระบายความร้อนด้วยของเหลวจําเป็นต้องเพิ่มหอทําความเย็นขนาดใหญ่สิ่งอํานวยความสะดวกระบบน้ําแบบรวมศูนย์และท่อเพื่อขนส่งน้ําไปและกลับจาก GPU ทั้งหมดซึ่งเป็นการปรับเปลี่ยนพื้นฐานในโครงสร้างพื้นฐานของศูนย์ข้อมูล

นอกจากการบริโภคพลังงานสูงสุดแล้ว ศูนย์ข้อมูล AI มีความต้องการในการโหลดที่แตกต่าง ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมรักษาการบริโภคพลังงานที่สามารถทำนายได้ AI มีแบบแบรนด์ในการใช้พลังงานของโหลดที่หลากหลายมากขึ้น ความผันผวนนี้เกิดขึ้นเพราะ GPU ทำการสลับโลกอย่างสม่ำเสมอระหว่างการทำงานที่ 100% และการลดลงเกือบหยุดเมื่อการฝึกอบรมถึงจุดสำคัญ ที่นั่นน้ำหนักจะถูกเก็บไว้ที่หน่วยความจำหรือเช่นเดียวกับที่เราเห็นก่อนหน้านี้ ถูกปรับปรุงกับเกาะอื่น ๆ ศูนย์ข้อมูล AI ต้องการโครงสร้างพลังงานที่เชี่ยวชาญเพื่อจัดการกับความผันผวนของโหลดเหล่านี้

การสร้างคลัสเตอร์ GPU นั้นยากกว่าการสร้างคลาวด์คอมพิวเตอร์ทั่วไปมาก GPU ต้องพูดคุยกันอย่างรวดเร็ว เพื่อให้สิ่งนี้เกิดขึ้นพวกเขาจะต้องบรรจุไว้ใกล้กันมาก สิ่งอํานวยความสะดวก AI ทั่วไปต้องการสายเคเบิลพิเศษมากกว่า 200,000 สายที่เรียกว่าการเชื่อมต่อ InfiniBand สายเคเบิลเหล่านี้ช่วยให้ GPU สื่อสารได้ หากสายเคเบิลเพียงเส้นเดียวหยุดทํางานระบบทั้งหมดจะปิดตัวลง กระบวนการฝึกอบรมไม่สามารถดําเนินต่อไปได้จนกว่าสายเคเบิลนั้นจะได้รับการแก้ไข

ข้อกําหนดด้านโครงสร้างพื้นฐานเหล่านี้ทําให้แทบจะเป็นไปไม่ได้เลยที่จะปรับปรุงศูนย์ข้อมูลแบบดั้งเดิมด้วย GPU ประสิทธิภาพสูงเพื่อให้พร้อมใช้งาน AI การอัพเกรดดังกล่าวจะต้องมีการยกเครื่องโครงสร้างเกือบสมบูรณ์ บริษัทต่างๆ กําลังสร้างศูนย์ข้อมูลใหม่ที่ออกแบบมาโดยเฉพาะสําหรับ AI ตั้งแต่ต้น โดยองค์กรต่างๆ กําลังดําเนินการในระดับที่แตกต่างกัน

บริษัทเทคโนโลยีชั้นนํากําลังแข่งกันสร้างศูนย์ข้อมูล AI ของตนเอง Meta กําลังลงทุนอย่างมากในสิ่งอํานวยความสะดวกเพื่อการพัฒนา AI ของตัวเองโดยถือว่าเป็นการลงทุนโดยตรงเนื่องจากไม่มีบริการคลาวด์ Microsoft กําลังสร้างศูนย์ขนาดใหญ่ในทํานองเดียวกันเพื่อขับเคลื่อนทั้งโครงการ AI ของตัวเองและให้บริการลูกค้าหลักเช่น OpenAI ออราเคิลยังได้เข้าสู่พื้นที่นี้อย่างจริงจังโดยรักษาความปลอดภัย OpenAI ในฐานะลูกค้าที่มีชื่อเสียง Amazon ยังคงขยายโครงสร้างพื้นฐานอย่างต่อเนื่องโดยเฉพาะอย่างยิ่งเพื่อสนับสนุน บริษัท AI ที่เกิดขึ้นใหม่เช่น Anthropic xAI ของ Elon Musk ไม่ต้องการพึ่งพา บริษัท อื่นเลือกที่จะสร้างคลัสเตอร์ GPU 100,000 ของตัวเอง

ภายในศูนย์ข้อมูล GPU 100,000 H100 ของ xAI (แหล่งที่มา)

พร้อมกับผู้ครองตำแหน่งที่เป็นปัจจุบัน “neoclouds” กำลังเกิดขึ้น - ผู้ให้บริการคลาวด์ที่เชี่ยวชาญเฉพาะเรื่องในการคำนวณ GPU สำหรับหน้าที่การทำงานทางด้าน AI พวกเหล่านี้หารือกันเป็นสองหมวดหมู่ที่แตกต่างกันตามขนาด

โฮสต์คลาวด์ขนาดใหญ่รวมถึง CoreWeave, ครูโซ, และ LLama Labsใช้งานคลัสเตอร์ GPU มากกว่า 2,000 ตัว พวกเขาสร้างความแตกต่างจากบริการคลาวด์แบบดั้งเดิมในสองวิธี: นําเสนอโซลูชันโครงสร้างพื้นฐานที่กําหนดเองแทนที่จะเป็นแพ็คเกจมาตรฐานและต้องใช้ภาระผูกพันระยะยาวกับลูกค้าแทนการจัดการแบบจ่ายต่อการใช้งาน

แบบจำลองธุรกิจของพวกเขาใช้สัญญายาวนานเหล่านี้และความสามารถในการชำระหนี้ของลูกค้าเพื่อรับการจัดการเงินสำหรับโครงสร้างพื้นฐาน รายได้เกิดจากอัตราพรีเมียมที่เรียกเก็บสำหรับบริการที่เชี่ยวชาญ และกำไรจากการแบ่งแยกระหว่างต้นทุนการจัดการเงินที่ต่ำกับการชำระเงินของลูกค้า

นี่คือวิธีที่ระบบการจัดการแบบนี้ทำงานโดยปกติ: ผู้ให้บริการเนโอคลาวด์รับสัญญา 3 ปีกับ AI startup ที่มีทุนเงินมาก 10,000 H100 GPUs ในราคา 40 ล้านดอลลาร์ต่อเดือน โดยใช้การทำรายได้ที่รับประกันนี้ 1.44 พันล้านดอลลาร์ ผู้ให้บริการจะได้รับเงินทุนเงินฝากที่เป็นที่รับรองจากธนาคาร (ดอกเบี้ย 6%) เพื่อซื้อและติดตั้งโครงสร้างพื้นฐานมูลค่า 700 ล้านดอลลาร์ รายได้ต่อเดือน 40 ล้านดอลลาร์ครอบคลุมค่าใช้จ่ายในการดำเนินงาน 10 ล้านดอลลาร์และการชำระเงินกู้ยืม 20 ล้านดอลลาร์ ทำให้ได้รายได้สุทธิต่อเดือน 10 ล้านดอลลาร์ในขณะที่ startup ได้รับพลังการคำนวณที่กำหนดแบบกำหนดเองแบบที่พิเศษ

โมเดลนี้ต้องการการเลือกลูกค้าที่ระมัดระวังอย่างยิ่ง ผู้ให้บริการโดยทั่วไปมองหา บริษัทที่มีเงินสดสำรองมากหรือมีการสนับสนุนทุนอันแข็งแกร่ง - โดยทั่วไปมีการประเมินมูลค่า 500 ล้านเหรียญสหรัฐหรือมากกว่า

เมฆเน็ตที่เล็กน้อยนี้ให้สร้างกลุ่ม GPU ที่มีขนาดไม่เกิน 2,000 เครื่องและเป็นเป้าหมายสำหรับกลุ่มตลาด AI ขนาดเล็กและขนาดกลาง - ระดับธุรกิจเริ่มต้นขนาดเล็กและกลาง บริษัทเหล่านี้จะฝึกฝนโมเดลที่เล็กกว่า (ไม่เกิน 70 พันล้านพารามิเตอร์) หรือปรับแต่งโมเดลโอเพ่นซอร์ส (ปรับแต่งเป็นกระบวนการปรับแต่งโมเดลพื้นฐานให้เข้ากับกรณีการใช้งานที่เฉพาะเจาะจง) ทั้งสองข้อมูลที่ต้องการความสามารถในการคำนวณที่เหมาะสมแต่มีระยะเวลาสั้น

ผู้ให้บริการเหล่านี้มีการให้บริการคอมพิวเตอร์ตามคำสั่งพร้อมอัตราค่าบริการรายชั่วโมงสำหรับการเข้าถึงคลัสเตอร์โดยไม่มีการหยุดพักนาน. แม้ว่าราคานี้จะสูงกว่าสัญญาในระยะยาว แต่มันช่วยให้ธุรกิจรุ่นเริ่มต้นสามารถทดลองโดยไม่ต้องยึดติดกับข้อตกลงที่มีมูลค่าหลายล้านดอลลาร์

สุดท้ายแล้ว นอกจากผู้ให้บริการคลาวด์และผู้ให้บริการเมฆรุ่นใหม่ เรายังมีผู้แทนคนกลางในพื้นที่โครงสร้างพื้นฐาน AI: แพลตฟอร์มและผู้รวมรวม ผู้แทนนี้ไม่ครอบครองโครงสร้าง GPU แต่เชื่อมต่อเจ้าของทรัพยากรคำนวณกับผู้ที่ต้องการเขาใช้

ผู้ให้บริการพื้นที่เช่น HydraHost และ Fluidstackบริการเป็น Shopify ของการคำนวณ GPU ทุกอย่างเช่น Shopify ช่วยให้ผู้ขายสามารถเริ่มต้นร้านค้าออนไลน์โดยไม่ต้องสร้างโครงสร้างการค้าออนไลน์เหล่านี้ช่วยให้ผู้ดำเนินศูนย์ข้อมูลและเจ้าของ GPU สามารถให้บริการคำนวณโดยไม่ต้องพัฒนาอินเตอร์เฟซลูกค้าของตนเองพวกเขาให้บริการแพคเกจเทคนิคเต็มรูปแบบสำหรับการดำเนินธุรกิจคำนวณ GPU รวมถึงเครื่องมือการจัดการโครงสร้างระบบจัดจำหน่ายลูกค้าและโซลูชันการเรียกเก็บเงิน

Marketplace aggregators like Vast.aifunction ในโลก GPU เหมืองแร่ที่เป็นเสมือนเป็น Amazon พวกเขาสร้างตลาดที่รวมการเสนอขายความสามารถในการคำนวณที่หลากหลายจากผู้ให้บริการต่าง ๆ - ตั้งแต่การ์ด RTX รุ่นใช้งานทั่วไปไปจนถึง GPU H100 รุ่นมืออาชีพ เจ้าของ GPU รายการทรัพยากรของพวกเขาพร้อมกับเมตริกประสิทธิภาพและคะแนนความเชื่อถืออย่างละเอียด ส่วนลูกค้าซื้อเวลาคำนวณผ่านแพลตฟอร์มเซลฟ์เซอร์วิส

การอ่านความหมาย

จนถึงตอนนี้การอภิปรายของเรามุ่งเน้นไปที่รูปแบบการฝึกอบรม (หรือการปรับแต่ง) อย่างไรก็ตาม เมื่อผ่านการฝึกอบรมแล้ว จะต้องปรับใช้โมเดลเพื่อให้บริการแก่ผู้ใช้ปลายทาง ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน ทุกครั้งที่คุณแชทกับ ChatGPT คุณกําลังใช้ GPU ที่เรียกใช้ปริมาณงานการอนุมานที่ป้อนข้อมูลของคุณและสร้างการตอบสนองของโมเดล ลองกลับไปพูดถึงรูปปั้นหินอ่อนสักนาที

นี่ยังเป็นเดวิด—ไม่ใช่ต้นฉบับของไมเคิลแองเจโล แต่เป็นปูนปลาสเตอร์ที่พระราชินีวิกตอเรียมอบหมายในปี 1857 สําหรับพิพิธภัณฑ์วิคตอเรียแอนด์อัลเบิร์ตในลอนดอน ในขณะที่ Michelangelo ใช้เวลาสามปีในการบิ่นหินอ่อนอย่างระมัดระวังเพื่อสร้างต้นฉบับในฟลอเรนซ์การหล่อปูนปลาสเตอร์นี้ทําจากแม่พิมพ์โดยตรงของรูปปั้นซึ่งทําซ้ําทุกโค้งมุมและรายละเอียดที่ Michelangelo สร้างขึ้นอย่างสมบูรณ์แบบ งานสร้างสรรค์ที่เข้มข้นเกิดขึ้นครั้งเดียว หลังจากนั้นก็กลายเป็นเรื่องของการจําลองคุณสมบัติเหล่านี้อย่างซื่อสัตย์ วันนี้แบบจําลองของเดวิดปรากฏทุกที่ตั้งแต่ห้องโถงพิพิธภัณฑ์ไปจนถึงลานคาสิโนลาสเวกัส

นี่คือวิธีการแปลงความคิดให้เป็นสิ่งที่เป็นไปได้ใน AI การฝึกโมเดลภาษาขนาดใหญ่เหมือนกระบวนการสร้างรูปปั้นของไมเคิลแองเจโลราวกับกระบวนการที่ใช้เวลานานและใช้ทรัพยากรมาก โมเดลจะเรียนรู้รูปร่างที่ถูกต้องของภาษาผ่านการปรับเปลี่ยนเล็ก ๆ น้อย ๆ ล้านครั้ง แต่การใช้โมเดลที่ฝึกเรียนแล้ว (การแปลงความคิด) เหมือนการสร้างสำเนา การสนทนากับ ChatGPT คุณไม่ได้สอนภาษาให้เรียนรู้ตั้งแต่ต้นแต่ใช้สำเนาของโมเดลที่พารามิเตอร์ (เช่นเส้นโค้งและมุมของเดวิด) ถูกปรับปรุงแล้ว

ปริมาณงานการอนุมานแตกต่างจากการฝึกอบรมโดยพื้นฐาน ในขณะที่การฝึกอบรมต้องใช้คลัสเตอร์ขนาดใหญ่และหนาแน่นของ GPU ล่าสุดเช่น H100s เพื่อจัดการกับการคํานวณที่เข้มข้นการอนุมานสามารถทํางานบนเซิร์ฟเวอร์ GPU เดียวโดยใช้ฮาร์ดแวร์รุ่นเก่าเช่น A100s หรือแม้แต่การ์ดระดับผู้บริโภคทําให้คุ้มค่ากว่ามาก ดังที่กล่าวไว้ปริมาณงานการอนุมานมีความต้องการเฉพาะของตนเอง:

  • ความครอบคลุมทางภูมิศาสตร์ที่กว้างขวาง: โมเดลจําเป็นต้องปรับใช้ในศูนย์ข้อมูลหลายแห่งทั่วโลกเพื่อให้แน่ใจว่าผู้ใช้ในสิงคโปร์จะได้รับการตอบสนองอย่างรวดเร็วเช่นเดียวกับผู้ใช้ในซานฟรานซิสโก
  • High uptime: ไม่เหมือนการฝึกอบรมที่สามารถหยุดและดำเนินการต่อได้ การใช้ทำนายจำเป็นต้องพร้อมใช้งานตลอด 24/7 เนื่องจากผู้ใช้คาดหวังการตอบสนองทันทีตลอดเวลา
  • ความไม่จำเป็น: ต้องมีเซิร์ฟเวอร์หลายเครื่องที่พร้อมรับมือคำขอในกรณีที่บางเครื่องล้มเหลวหรือเกินพลัง

คุณลักษณะเหล่านี้ทําให้ปริมาณงานการอนุมานเหมาะสําหรับรูปแบบการกําหนดราคาเฉพาะจุด ภายใต้การกําหนดราคาแบบสปอตทรัพยากร GPU มีส่วนลดมากมายซึ่งมักจะต่ํากว่าอัตราตามความต้องการ 30-50% ด้วยความเข้าใจว่าบริการอาจหยุดชั่วคราวเมื่อลูกค้าที่มีลําดับความสําคัญสูงกว่าต้องการทรัพยากร รุ่นนี้เหมาะกับการอนุมานเนื่องจากการปรับใช้ที่ซ้ําซ้อนช่วยให้ปริมาณงานเปลี่ยนไปเป็น GPU ที่พร้อมใช้งานได้อย่างรวดเร็วหากถูกขัดจังหวะ

ในที่สุดก็มาถึงจุดนี้ เมื่อเรามีการใช้งาน GPUs และ AI cloud computing อย่างแท้จริง ตอนนี้เรามีโอกาสเริ่มสำรวจว่าคริปโตสกุลจะเข้ามาเล่นบทบาทในสิ่งเหล่านี้อย่างไร มาเริ่มกันเถอะ

ที่สิ่งที่เกี่ยวข้องกับคริปโต

โครงการและรายงานบ่อยครั้งอ้างอิงถึงการสังเกตของ Peter Thiel ที่ว่า "AI กำลังกลายเป็นศูนย์กลาง ส่วนคริปโตกำลังกลายเป็นศูนย์กลาง" เมื่อพูดถึงบทบาทของคริปโตในการฝึก AI ในขณะที่คำกล่าวของ Thiel เป็นความจริงที่ไม่สามารถเสี่ยงทายได้ แต่เราเพิ่งเห็นหลักฐานที่เพียงพอเกี่ยวกับความได้เปรียบของ Big Tech ในการฝึก AI ที่มักถูกนำมาใช้ผิดให้เสียงเสียงว่าคริปโตและคอมพิวเตอร์ที่กระจายเป็นสิ่งที่เสนอตัวเลือกหลักในการตอบสนองต่ออิทธิพลของ Big Tech

คำอ้างเหตุเช่นนี้กล่าวถึงความเกินความจริงเกี่ยวกับความเป็นไปได้ของสกุลเงินดิจิตอลในการเปลี่ยนแปลงสื่อสังคม เกม และอุตสาหกรรมอื่น ๆ ได้ยินมากมายแล้ว ไม่เพียงเป็นการเสียเวลาแต่ยังรู้สึกไม่เป็นทางการ และจริงไปตามที่ฉันจะอธิบายในไม่ช้าก็ยังไม่เป็นไปได้ - อย่างน้อยในระยะสั้น

ฉันจะใช้แนวทางในทางปฏิบัติมากขึ้น ฉันจะสมมติว่าสตาร์ทอัพ AI ที่กําลังมองหาการประมวลผลไม่สนใจหลักการของการกระจายอํานาจหรือการต่อต้านทางอุดมการณ์กับ Big Tech แต่พวกเขามีปัญหา - พวกเขาต้องการเข้าถึงการประมวลผล GPU ที่เชื่อถือได้ด้วยต้นทุนที่ต่ําที่สุด หากโครงการ crypto สามารถให้ทางออกที่ดีกว่าสําหรับปัญหานี้มากกว่าทางเลือกที่ไม่ใช่ crypto พวกเขาจะใช้มัน

ด้วยเหตุนี้เรามาเข้าใจก่อนว่าโครงการที่ใช้เทคโนโลยีเช่นนี้แข่งขันกับใคร ก่อนหน้านี้เราได้พูดถึงหมวดหมู่ต่าง ๆ ของผู้ให้บริการคลาวด์ AI—Big Tech และ hyperscalers, big neoclouds, small neoclouds, ผู้ให้บริการแพลตฟอร์มและตลาด

สารตั้งต้นของการคำนึงถึงการคำนวณแบบกระจาย (เช่นโครงการ DePIN ทั้งหมด) คือตลาดคำนวณปัจจุบันทำงานได้ไม่เป็นประสบการณ์เต็มที่ ความต้องการ GPU ยังคงสูงอย่างมากในขณะที่มีการจัดหาที่แยกจากกันและไม่ได้ใช้งานในศูนย์ข้อมูลทั่วโลกและบ้านส่วนตัว โครงการส่วนใหญ่ในกลุ่มนี้แข่งขันโดยตรงกับตลาดโดยรวบรวมการจัดหาที่แพร่กระจายนี้เพื่อลดความไม่ได้เป็นประสิทธิภาพ

With that established, let’s look at how these projects (and compute marketplaces in general) can aid with different AI workloads—training, fine-tuning and inference.

การฝึกอบรม

อันดับแรก ไม่ อาศิตจะไม่ถูกฝึกฝนบนเครือข่ายที่กระจายอยู่ทั่วโลกของหน่วยประมวลผลกราฟิกส่วนตัว อย่างน้อยก็ไม่ในเส้นทางปัจจุบันของ AI นี่คือเหตุผล

เราได้พูดถึงความใหญ่ของกลุ่มโมเดลพื้นฐานที่กำลังเพิ่มขึ้นเรื่อย ๆ คุณต้องใช้ GPU ที่มีประสิทธิภาพสูงสุด 100,000 ตัวในโลกเพื่อเริ่มการแข่งขัน จำนวนนี้เพิ่มขึ้นเรื่อย ๆ ในทุก ๆ ปี โดยภายในปี 2026 คาดว่าต้นทุนของการฝึกอาจเกิน 100 พันล้านดอลลาร์ ต้องใช้ GPU หรือมากกว่าหนึ่งล้านตัวอาจจะจำเป็น

บริษัทเทคโนโลยีใหญ่ที่ได้รับการสนับสนุนจากเนโอคลาวด์ระดับใหญ่และมีพันธมิตรของ Nvidia ที่ตรงไปตรงมาเท่านั้นที่สามารถรวมกลุ่มคอมพิวเตอร์ขนาดใหญ่นี้ได้ โดยจำไว้ว่าเรากำลังแข่งขันสำหรับ ASI และผู้เข้าร่วมทั้งหมดมีแรงจูงใจและทุนทรัพย์มากเพียงพอ หากมีการผลิต GPU มากเพียงพอ (ซึ่งไม่มี) พวกเขาจะเป็นผู้แรกที่ได้รับการจัดหาใช้งาน

แม้ว่าโครงการ crypto จะรวบรวมการประมวลผลที่จําเป็น แต่อุปสรรคพื้นฐานสองประการก็ป้องกันการพัฒนา ASI แบบกระจายอํานาจ:

ประการแรก GPU ยังคงต้องเชื่อมต่อในคลัสเตอร์ขนาดใหญ่เพื่อให้ทํางานได้อย่างมีประสิทธิภาพ แม้ว่ากลุ่มเหล่านี้จะถูกแบ่งระหว่างเกาะในเมือง พวกเขาจะต้องเชื่อมต่อกันด้วยสายไฟเบอร์ออปติกเฉพาะ สิ่งเหล่านี้ไม่สามารถทําได้ในสภาพแวดล้อมแบบกระจายอํานาจ นอกเหนือจากการจัดซื้อ GPU แล้ว การจัดตั้งศูนย์ข้อมูลที่พร้อมสําหรับ AI ยังต้องการการวางแผนอย่างพิถีพิถัน ซึ่งโดยปกติจะเป็นกระบวนการหนึ่งถึงสองปี (xAI ทําได้ในเวลาเพียง 122 วัน แต่ไม่น่าเป็นไปได้ที่ Elon จะเปิดตัวโทเค็นในเร็ว ๆ นี้)

เพียงแค่สร้างศูนย์ข้อมูล AI ก็ไม่เพียงพอที่จะเกิด AI ที่มีความฉลาดเหนือมนุษย์ เช่น ผู้ก่อตั้ง Anthropic Dario Amodeirecently explainedการปรับขนาดใน AI นั้นคล้ายคลึงกับปฏิกิริยาเคมี เช่นเดียวกับปฏิกิริยาทางเคมีที่ต้องใช้รีเอเจนต์หลายตัวในสัดส่วนที่แม่นยําเพื่อดําเนินการต่อการปรับขนาด AI ที่ประสบความสําเร็จนั้นขึ้นอยู่กับส่วนผสมสําคัญสามอย่างที่เติบโตร่วมกัน: เครือข่ายที่ใหญ่ขึ้นเวลาในการฝึกอบรมที่ยาวนานขึ้นและชุดข้อมูลที่ใหญ่ขึ้น หากคุณปรับขนาดองค์ประกอบหนึ่งโดยไม่มีองค์ประกอบอื่นกระบวนการจะหยุดทํางาน

แม้ว่าเราจะจัดการเพื่อสะสมทั้งการประมวลผลและทําให้คลัสเตอร์ทํางานร่วมกัน แต่เราก็ยังต้องการข้อมูลคุณภาพสูงหลายเทราไบต์เพื่อให้โมเดลที่ผ่านการฝึกอบรมนั้นดี หากไม่มีแหล่งข้อมูลที่เป็นกรรมสิทธิ์ของ Big Tech เงินทุนในการเขียนข้อตกลงมูลค่าหลายล้านดอลลาร์กับฟอรัมออนไลน์และสื่อหรือรูปแบบที่มีอยู่เพื่อสร้างข้อมูลสังเคราะห์การได้รับข้อมูลการฝึกอบรมที่เพียงพอเป็นไปไม่ได้

มีการคาดเดาในช่วงปลายว่ากฎหมายการปรับขนาดอาจสูงโดย LLM อาจกระทบเพดานประสิทธิภาพ บางคนตีความว่านี่เป็นการเปิดสําหรับการพัฒนา AI แบบกระจายอํานาจ อย่างไรก็ตาม สิ่งนี้มองข้ามปัจจัยสําคัญ—ความเข้มข้นของพรสวรรค์ บริษัท Big Tech และห้องปฏิบัติการ AI ในปัจจุบันเป็นที่ตั้งของนักวิจัยชั้นนําของโลก เส้นทางทางเลือกที่ก้าวหน้าไปยัง AGI มีแนวโน้มที่จะโผล่ออกมาจากศูนย์เหล่านี้ เมื่อพิจารณาถึงภูมิทัศน์การแข่งขันการค้นพบดังกล่าวจะยังคงได้รับการปกป้องอย่างใกล้ชิด

พิจารณาทุกข้อเท็จจริงเหล่านี้ ฉันมั่นใจ 99.99% ว่าการฝึกอบรม ASI หรือแม้กระทั่งโมเดลที่ทรงพลังที่สุดในโลก จะไม่ได้รับการฝึกอบรมบนโครงการคำนวณแบบกระจาย ในกรณีนั้น โมเดลอะไรบ้างที่เงินดิจิทัลจริงจังสามารถช่วยฝึกอบรมได้บ้าง

เพื่อให้โมเดลสามารถถูกฝึกฝนระหว่างกลุ่ม GPU ที่แตกต่างกันทางภูมิภาค เราจำเป็นต้องใช้การกระจายข้อมูลระหว่างพวกเขา (จำได้ว่าการกระจายข้อมูลคือวิธีที่เกี่ยวกับเกาะต่าง ๆ ของ GPU ที่ทำงานกับชุดข้อมูลการฝึกฝนที่แตกต่างกัน จะตั้งค่ากับกัน) โมเดลที่ถูกฝึกฝนมากขึ้นจะต้องมีปริมาณข้อมูลที่ต้องแลกเปลี่ยนกันมากขึ้น เช่นเดียวกับที่เราได้พูดถึง สำหรับโมเดลอันยิ่งใหญ่ที่มีพารามิเตอร์เกินหนึ่งล้านล้าน การแบนด์วิดท์ที่ต้องการจะมากพอที่จะต้องใช้การเชื่อมต่อไฟเบอร์ออปติกที่ไว้วางการใช้งาน

อย่างไรก็ตามสำหรับโมเดลขนาดเล็ก ความต้องการแบนด์วิดท์จะลดลงตรงไปตรงมา ความก้าวหน้าล่าสุดในอัลกอริทึมการฝึกอบรมที่ใช้การสื่อสารต่ำ โดยเฉพาะในการฝึกอบรมแบบเลื่อนการประสานเวลาได้เป็นโอกาสที่มีความมั่นใจสำหรับการฝึกอบรมโมเดลขนาดเล็กถึงกลางขนาดในลักษณะที่กระจายอย่างแบ่งเบา ทีมงานสองทีมเป็นผู้นำในการพยายามทดลองเหล่านี้

Nous Researchเป็นบริษัทเร่งความเร็ว AI และเป็นผู้เล่นใหญ่ในการพัฒนา AI โอเพนซอร์ส พวกเขาเป็นที่รู้จักดีสำหรับชุดโมเดลภาษา Hermes และโครงการนวัตกรรมเช่น World Sim ในช่วงต้นปีนี้พวกเขาให้บริการซับเน็ต LLM-ranking BitTensor เป็นเวลาไม่กี่เดือน พวกเขาได้ลอยน้ำเข้าสู่การคำนวณแบบกระจายโดยการเปิดเผยDisTrOโครงการ Distributed Training Over the Internet ที่พวกเขาสามารถฝึกฝนโมเดล Llama-2 ที่มีพารามิเตอร์ 1.2 พันล้านได้อย่างประสบความสำเร็จโดยลดความต้องการแบนด์วิดท์ระหว่าง GPU ลงถึง 857 เท่า

รายงาน DisTrO โดย Nous Research

Prime Intellectซึ่งเป็นสตาร์ทอัพที่พัฒนาโครงสร้างพื้นฐานสําหรับ AI แบบกระจายอํานาจในวงกว้าง โดยมีเป้าหมายเพื่อรวบรวมทรัพยากรการประมวลผลทั่วโลกและเปิดใช้งานการฝึกอบรมร่วมกันของโมเดลที่ล้ําสมัยผ่านระบบแบบกระจาย ของพวกเขา โครงสร้าง OpenDiLoCo (การนำมาใช้ของ DeepMind วิธีการกระจายการสื่อสารที่ต่ำ) ฝึกอบรมสำเร็จโมเดลพารามิเตอร์หนึ่งพันล้านตัวข้างทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวน 90-95% การใช้โปรแกรม

แต่การฝึกอบรมแบบกระจายทำงานอย่างไร?

ความขนานของข้อมูลแบบดั้งเดิมต้องใช้ GPU ในการแบ่งปันและเฉลี่ยน้ําหนักหลังจากทุกขั้นตอนการฝึกอบรมซึ่งเป็นไปไม่ได้ผ่านการเชื่อมต่ออินเทอร์เน็ต แต่โครงการเหล่านี้ปล่อยให้แต่ละ "เกาะ" ของ GPU ฝึกอย่างอิสระเป็นเวลาหลายร้อยขั้นตอนก่อนที่จะซิงโครไนซ์ ลองนึกถึงทีมวิจัยอิสระที่ทํางานในโครงการเดียวกัน: แทนที่จะตรวจสอบซึ่งกันและกันอย่างต่อเนื่องพวกเขาก้าวหน้าอย่างมีนัยสําคัญอย่างอิสระก่อนที่จะแบ่งปันสิ่งที่ค้นพบ

DisTrO และ OpenDiLoCo ซิงค์เฉพาะทุก 500 ขั้นตอนเท่านั้น โดยใช้วิธีการทำเพิ่มเติมสองตัวเลือก:

  • เครื่องมือเพิ่มประสิทธิภาพ "ภายใน" ที่จัดการการอัปเดตในเครื่องของ GPU แต่ละตัว เช่น ทีมทําการค้นพบในท้องถิ่น
  • เครื่องมือเพิ่มประสิทธิภาพ "ด้านนอก" ที่จัดการการซิงค์เป็นระยะระหว่าง GPU โดยทําหน้าที่เป็นผู้ประสานงานที่นําสิ่งที่ค้นพบทั้งหมดมารวมกัน

เมื่อพวกเขาซิงค์กัน ไม่ใช่การแบ่งปันน้ำหนักทั้งหมด พวกเขาแบ่งปัน "แกรดิเอนแบบเทียบเท่า" - มีความแตกต่างในน้ำหนักปัจจุบันของพวกเขาและน้ำหนักจากการซิงค์ครั้งล่าสุด นี่เป็นวิธีที่มีประสิทธิภาพอย่างน่าทึ่ง เหมือนการแบ่งปันเฉพาะสิ่งที่เปลี่ยนแปลงในเอกสาร ไม่ใช่การส่งเอกสารทั้งหมดทุกครั้ง

INTELLECT-1การนำไปใช้จริงของ OpenDiLoCo โดย Prime Intellect เป็นการผลักดันแนวคิดนี้ไปอีกขั้นตอนหนึ่งโดยการฝึกฝนโมเดล 10B พารามิเตอร์ - ความพยายามในการฝึกฝนแบบกระจายที่ใหญ่ที่สุดจนถึงปัจจุบัน พวกเขาได้เพิ่มการปรับปรุงที่สำคัญเช่น:

  • การบีบอัดข้อมูลที่พวกเขาต้องการแบ่งปัน ทำให้การสื่อสารมีประสิทธิภาพมากขึ้น
  • สร้างระบบสำรองเพื่อให้การฝึกอบรมสามารถดำเนินต่อได้ แม้ว่าบางเครื่องคอมพิวเตอร์จะหยุดทำงาน
  • ทำให้กระบวนการซิงโครไนเซชันเร็วมาก - น้อยกว่าหนึ่งนาที

INTELLECT-1, ซึ่งได้รับการฝึกอบรมโดยกลุ่ม GPU มากกว่า 20 กลุ่มที่กระจายอยู่ทั่วโลก เสร็จลงล่าสุดpretrainingและจะถูกเปิดเผยเต็มรูปแบบในเร็ว ๆ นี้ในรูปแบบโอเพนซอร์ส

แดชบอร์ดการฝึกอบรม INTELLECT-1

ทีมเช่นนี้เช่นแมคโครคอสมอส are using similar algorithms to โมเดลการฝึกอบรมในนิเวศ Bittensor

หากอัลกอริทึมการฝึกองค์กรแบบกระจายเหล่านี้ยังคงดีขึ้นต่อไป อาจสามารถสนับสนุนโมเดลขนาดถึง 100 พันพารามิเตอร์ ด้วยรุ่น GPU รุ่นถัดไป โมเดลขนาดเช่นนี้สามารถเป็นประโยชน์อย่างมากสำหรับกรณีการใช้ที่หลากหลาย:

  1. การวิจัยและทดลองกับสถาปัตยกรรมใหม่ที่ไม่ต้องการการประมวลผลระดับชายแดน
  2. รุ่นทั่วไปขนาดเล็กที่ถูกปรับแต่งให้มีประสิทธิภาพและความเร็วสูงกว่าความฉลาดของข้อมูลต้นฉบับ
  3. โมเดลเฉพาะด้านโดเมน

การปรับจูนอย่างละเอียด

การปรับแต่งอย่างละเอียดเป็นกระบวนการของการใช้โมเดลพื้นฐานที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติจะเป็นโอเพ่นซอร์สโดย Meta, Mistral หรือ Alibaba) และฝึกอบรมเพิ่มเติมเกี่ยวกับชุดข้อมูลเฉพาะเพื่อปรับให้เข้ากับงานหรือโดเมนเฉพาะ สิ่งนี้ต้องการการประมวลผลน้อยกว่าการฝึกอบรมตั้งแต่เริ่มต้นเนื่องจากโมเดลได้เรียนรู้รูปแบบภาษาทั่วไปแล้วและจําเป็นต้องปรับน้ําหนักสําหรับโดเมนใหม่เท่านั้น

คำนวณความต้องการสำหรับการปรับปรุงมาตราสเกลด้วยขนาดโมเดล โดยสมมติว่าการฝึกอบรมบน H100:

  • รุ่นเล็ก (1-7B พารามิเตอร์): เพียง GPU เดียว สามารถทำเสร็จภายใน 12 ชั่วโมง
  • รุ่นขนาดกลาง (7-13B): คลัสเตอร์ GPU 2-4 คลัสเตอร์เสร็จสิ้นภายใน 36 ชั่วโมง
  • โมเดลขนาดใหญ่ (>30B): สูงสุด 8 กลุ่ม GPU, การเสร็จสิ้นภายใน 4 วัน

ด้วยข้อกําหนดเหล่านี้การปรับแต่งอย่างละเอียดไม่ต้องการอัลกอริธึมการฝึกอบรมแบบกระจายที่ซับซ้อนที่กล่าวถึงก่อนหน้านี้ รูปแบบตามความต้องการซึ่งนักพัฒนาเช่าคลัสเตอร์ GPU ในช่วงเวลาสั้น ๆ ที่กระจุกตัวให้การสนับสนุนอย่างเพียงพอ ตลาดการประมวลผลแบบกระจายอํานาจที่มีความพร้อมใช้งานของ GPU ที่แข็งแกร่งอยู่ในตําแหน่งที่เหมาะสมในการจัดการกับปริมาณงานเหล่านี้

การสรุปความ

การอนุมานคือจุดที่ตลาดการประมวลผลแบบกระจายอํานาจมีเส้นทางที่ชัดเจนที่สุดสู่ความเหมาะสมของตลาดผลิตภัณฑ์ น่าแปลกที่นี่เป็นเวิร์กโฟลว์ที่กล่าวถึงน้อยที่สุดในบริบทของการฝึกอบรมแบบกระจายอํานาจ สิ่งนี้เกิดจากสองปัจจัย: การอนุมานขาดการอุทธรณ์ของการฝึกอบรม "แบบจําลองพระเจ้า" ของ GPU 100,000 ครั้งและส่วนหนึ่งเป็นเพราะขั้นตอนปัจจุบันของการปฏิวัติ AI

จนถึงวันนี้การคำนวณส่วนใหญ่จะเป็นการฝึกฝนจริง ๆ การแข่งขันเพื่อ ASI กำลังนำไปสู่การลงทุนรายใหญ่โดยตรงในโครงสร้างพื้นฐานการฝึกฝน อย่างไรก็ตาม สมดุลนี้มักเปลี่ยนไปเมื่อแอปพลิเคชัน AI เปลี่ยนจากการวิจัยเป็นการผลิต สำหรับแบบธุรกิจที่เกี่ยวกับ AI เพื่อให้ยังคงอยู่ได้ต้องมีรายได้จากการอ่านอย่างน้อยต้องมากกว่าต้นทุนของการฝึกฝนและการอ่านรวมกัน ในขณะที่การฝึก GPT-4 เป็นรายจ่ายที่มากมาย นั่นเป็นค่าใช้จ่ายครั้งเดียว ค่าใช้จ่ายในการคำนวณต่อเนื่องและเส้นทางสู่ความสามารถในการทำกำไรของ OpenAI ได้รับการขับเคลื่อนโดยการให้บริการคำขอการอ่านพันล้านให้กับลูกค้าที่ชำระเงิน

ตลาดประมวลผลกระจายอํานาจหรืออื่น ๆ โดยธรรมชาติของการรวม GPU รุ่นต่างๆ (เก่าและใหม่) จากทั่วโลกพบว่าตัวเองอยู่ในตําแหน่งที่ไม่เหมือนใครเพื่อรองรับปริมาณงานการอนุมาน

ตลาดคอมพิวเตอร์ไม่ว่าจะได้รับการแยกตามสถานที่หรือเป็นแบบดั้งเดิม มีความสามารถในการทำงานที่เกี่ยวข้องกับ GPUs ที่หลากหลาย (ทั้งรุ่นปัจจุบันและรุ่นก่อนหน้า) อย่างเหมาะสมทั่วโลก ข้อดีที่แท้จริงของพวกเขาสอดคล้องกับความต้องการในการสร้างองค์ความรู้: การกระจายทางภูมิภาคกว้างขวาง การรองรับที่เสถียรต่อเวลาทำงาน ระบบสำรอง และความเข้ากันได้ของรุ่น GPU ทั้งหมด

แต่ทำไมถึงเลือกใช้คริปโต?

เราได้พูดถึงเวิร์กโฟลว์ต่างๆ การประมวลผลแบบกระจายอํานาจสามารถและไม่สามารถช่วยได้ ตอนนี้เราต้องตอบคําถามสําคัญอีกข้อหนึ่ง: เหตุใดนักพัฒนาจึงเลือกที่จะรักษาความปลอดภัยการประมวลผลจากผู้ให้บริการแบบกระจายอํานาจผ่านผู้ให้บริการแบบรวมศูนย์ โซลูชันแบบกระจายอํานาจมีข้อได้เปรียบที่น่าสนใจอะไรบ้าง

ราคาและช่วง

สกุลเงินคงที่บรรจุผลิตภายใต้การตลาดด้วยการให้ทางเลือกที่ดีกว่าในการโอนเงินข้ามชาติทางด้านเดิม ปัจจัยที่สำคัญคือสกุลเงินคงที่เพียงแค่ถูกกว่าอย่างมาก! อย่างที่เดียวที่สำคัญที่สุดที่ส่งผู้พัฒนา AI เลือกให้บริการคลาวด์คือต้นทุน ในการแข่งขันกับผู้ให้บริการคอมพิวต์แบบกระจายให้สามารถแข่งขันได้อย่างมีประสิทธิภาพจริง ๆ พวกเขาต้องส่งมอบราคาที่ดีกว่าก่อน

ตลาดคอมพิวเตอร์เช่นเดียวกับตลาดทั้งหมดเป็นธุรกิจเอฟเฟกต์เครือข่าย ยิ่งอุปทานของ GPU บนแพลตฟอร์มมากเท่าไหร่สภาพคล่องและความพร้อมใช้งานของลูกค้าก็จะยิ่งมากขึ้นเท่านั้นซึ่งจะดึงดูดความต้องการมากขึ้น เมื่อความต้องการเพิ่มขึ้นสิ่งนี้จูงใจให้เจ้าของ GPU เข้าร่วมเครือข่ายมากขึ้นสร้างวงจรคุณธรรม อุปทานที่เพิ่มขึ้นยังช่วยให้ราคาแข่งขันได้มากขึ้นผ่านการจับคู่ที่ดีขึ้นและลดเวลาว่าง เมื่อลูกค้าสามารถค้นหาการประมวลผลที่ต้องการได้อย่างสม่ําเสมอในอัตราที่น่าดึงดูดพวกเขามีแนวโน้มที่จะสร้างการพึ่งพาทางเทคนิคที่ยั่งยืนบนแพลตฟอร์มซึ่งจะช่วยเสริมสร้างผลกระทบของเครือข่าย

ความเคลื่อนไหวนี้มีความสำคัญอย่างยิ่งในการอินเฟอเรนซ์ ที่ทำให้การกระจายทางภูมิภาคของการจัดหาสามารถเสริมสร้างการเสนอสินค้าได้อย่างแท้จริงโดยการลดความล่าช้าสำหรับผู้ใช้สุดท้าย ตลาดที่เป็นตลาดเปิดทั้งแบบนี้ที่มีมหาศาลจะมีข้อได้เปรียบทางการแข่งขันที่สำคัญ เนื่องจากทั้งผู้ผลิตและลูกค้าจะต้องเผชิญกับค่าใช้จ่ายในการเปลี่ยนแปลงเมื่อพวกเขาได้รวมกับเครื่องมือและกระบวนการทำงานของแพลตฟอร์ม

ผลกระทบเครือข่ายตลาด GPU มู่เล่

ในตลาดที่ผู้ชนะเหนือทุกคนเช่นนี้การบูตเครือข่ายและการเข้าสู่ความเร็วหนีไปเป็นเฟสที่สำคัญที่สุด ที่นี่คริปโตให้โครงการคอมพิวเตอร์ที่กระจายอยู่ด้วยเครื่องมือที่มีประสิทธิภาพมากมายที่คู่แข่งที่เป็นกลางไม่มีเพียงอย่างเดียว: ผลตอบแทนโทเคน

กลไกสามารถตรงไปตรงมา แต่ทรงพลัง โปรโตคอลจะเปิดตัวโทเค็นที่มีตารางรางวัลเงินเฟ้อก่อน ซึ่งอาจแจกจ่ายการจัดสรรเบื้องต้นให้กับผู้มีส่วนร่วมในช่วงต้นผ่าน airdrops การปล่อยโทเค็นเหล่านี้จะเป็นเครื่องมือหลักในการบูตทั้งสองด้านของตลาด

สําหรับผู้ให้บริการ GPU โครงสร้างรางวัลควรได้รับการออกแบบอย่างรอบคอบเพื่อกําหนดพฤติกรรมด้านอุปทาน ผู้ให้บริการจะได้รับโทเค็นตามสัดส่วนของการคํานวณและอัตราการใช้ประโยชน์ที่มีส่วนร่วม แต่ระบบควรไปไกลกว่ารางวัลเชิงเส้นอย่างง่าย โปรโตคอลนี้สามารถใช้ตัวคูณรางวัลแบบไดนามิกเพื่อจัดการกับความไม่สมดุลทางภูมิศาสตร์หรือประเภทฮาร์ดแวร์ ซึ่งคล้ายกับวิธีที่ Uber ใช้การกําหนดราคาที่เพิ่มขึ้นเพื่อจูงใจผู้ขับขี่ในพื้นที่ที่มีความต้องการสูง

ผู้ให้บริการอาจได้รับรางวัล 1.5 เท่าสำหรับการให้บริการคำนวณในพื้นที่ที่ไม่ได้รับการบริการเพียงพอหรือ 2 เท่าสำหรับการให้บริการประเภท GPU ที่ขาดแคลนชั่วคราว การแบ่งระดับรางวัลเพิ่มเติมตามอัตราการใช้งานที่สม่ำเสมอจะส่งเสริมให้ผู้ให้บริการรักษาความพร้อมที่มั่นคงและไม่สลับระหว่างแพลตฟอร์มโดย opportunistic.

ในด้านความต้องการลูกค้าจะได้รับรางวัลโทเค็นซึ่งจะสนับสนุนการใช้งานของพวกเขาอย่างมีประสิทธิภาพ โปรโตคอลอาจเสนอรางวัลที่เพิ่มขึ้นสำหรับการสัญญาณคอมพิวเตอร์ที่ยาวนานเพื่อกระตุ้นผู้ใช้ให้สร้างความขึ้นอยู่กับแพลตฟอร์มทางเทคนิคที่ลึกลงมากขึ้น รางวัลเหล่านี้อาจถูกสร้างเพื่อให้สอดคล้องกับแนวทางยุทธศาสตร์ของแพลตฟอร์มเช่นการจับต้องความต้องการในภูมิภาคที่แน่นอน

อัตราฐานของการคำนวณอาจถูกเก็บไว้ที่ระดับตลาดหรือต่ำกว่าราคาตลาดเล็กน้อย โดยโปรโตคอลที่ใช้oracles zkTLSเพื่อติดตามและจับคู่ราคาของคู่แข่งอย่างต่อเนื่อง รางวัลโทเค็นก็จะทำหน้าที่เป็นชั้นเสริมของการกระตุ้นเพิ่มเติมที่อยู่เหนือระดับราคาฐานที่แข่งขัน โมเดลราคาคู่สองชั้นนี้จะช่วยให้แพลตฟอร์มรักษาความแข่งขันของราคาในขณะเดียวกันก็ใช้สิทธิตัวกระตุ้นโทเค็นในการส่งเสริมพฤติกรรมที่เฉพาะเจาะจงที่เสริมสร้างเครือข่าย

โดยการแจกไอน้ำสิทธิ์ให้กับผู้ให้บริการและลูกค้าทั้งสองฝ่ายจะเริ่มเก็บสะสมส่วนได้เสียในเครือข่าย ในขณะที่บางคน บางครั้งอาจขายส่วนได้เสียเหล่านี้ คนอื่นก็จะยึดมันไว้ โดยจะกลายเป็นผู้เกี่ยวข้องและผู้สนับสนุนแพลตฟอร์ม ผู้เข้าร่วมที่พึ่งพาจะมีความสนใจที่สำคัญในความสำเร็จของเครือข่าย ในการส่งเสริมการเติบโตและการใช้งานที่เกินกว่าการใช้งานโดยตรงหรือการให้บริการทรัพยากรคอมพิวเตอร์

เมื่อเวลาผ่านไปเมื่อเครือข่ายถึงความเร็วหลบหนีและสร้างผลกระทบเครือข่ายที่แข็งแกร่งสิ่งจูงใจโทเค็นเหล่านี้สามารถค่อยๆลดลงได้ ประโยชน์ตามธรรมชาติของการเป็นตลาดที่ใหญ่ที่สุด - การจับคู่ที่ดีขึ้นการใช้ประโยชน์ที่สูงขึ้นความครอบคลุมทางภูมิศาสตร์ที่กว้างขึ้นจะกลายเป็นตัวขับเคลื่อนการเติบโตอย่างยั่งยืน

วิธีการสร้างกระแสตลาด GPU ด้วยการให้สิทธิ์ตั๋ว

การต่อต้านการเซ็นเซอร์

ในขณะที่ราคาและช่วงเป็นตัวแบ่งที่สำคัญ ระบบคอมพิวเตอร์ที่กระจายแก้ไขปัญหาความจำกัดในการดำเนินการจากผู้ให้บริการที่ให้บริการแบบกลาง ผู้ให้บริการคลาวด์แบบดั้งเดิมได้แสดงให้เห็นถึงความพร้อมที่จะระงับหรือยุติบริการตามนโยบายเนื้อหาและแรงกดดันจากภายนอก. ปฏิบัติเหล่านี้เป็นการเสนอคำถามที่ถูกต้องเกี่ยวกับว่านโยบายที่คล้ายกันอาจส่งต่อไปสู่การพัฒนาและการใช้งานโมเดล AI ได้อย่างไร

เมื่อโมเดล AI มีความซับซ้อนมากขึ้นและจัดการกับกรณีการใช้งานที่หลากหลายมากขึ้นจึงมีความเป็นไปได้จริงที่ผู้ให้บริการระบบคลาวด์อาจใช้ข้อ จํากัด ในการฝึกอบรมและให้บริการโมเดลคล้ายกับแนวทางการกลั่นกรองเนื้อหาที่มีอยู่ สิ่งนี้อาจส่งผลกระทบไม่เพียง แต่เนื้อหา NSFW และหัวข้อที่ถกเถียงกัน แต่ยังรวมถึงกรณีการใช้งานที่ถูกต้องตามกฎหมายในด้านต่างๆเช่นการถ่ายภาพทางการแพทย์การวิจัยทางวิทยาศาสตร์หรือศิลปะสร้างสรรค์ที่อาจเรียกใช้ตัวกรองอัตโนมัติที่ระมัดระวังมากเกินไป

เครือข่ายแบบไม่มีศูนย์กลางนี้ให้ตัวเลือกทางโครงสร้างที่เป็นอิสระแก่ผู้มีส่วนร่วมในตลาดเพื่อสร้างสภาพแวดล้อมที่เสรีและไม่จำกัดสำหรับนวัตกรรมได้อย่างเป็นอิสระ

ด้านกลับของสถาปัตยกรรมที่ไม่ต้องขออนุญาตคือความเป็นส่วนตัวที่ยากขึ้น เมื่อการคำนวณแบ่งแยกกันไปทั่วเครือข่ายของผู้ให้บริการแทนที่จะอยู่ในศูนย์ข้อมูลของภาคีเครือข่ายที่เชื่อถือได้เดียว นักพัฒนาจำเป็นต้องมีความระมัดระวังในเรื่องความปลอดภัยของข้อมูล ในขณะที่การเข้ารหัสและสิ่งแวดล้อมการดำเนินการที่เชื่อถือได้สามารถช่วยได้ นั่นคือมีการแลกเปลี่ยนระหว่างความต้านทานการตรวจสอบและความเป็นส่วนตัวที่นักพัฒนาต้องจัดการตามความต้องการที่เฉพาะเจาะจงของพวกเขา

ความเชื่อใจและการปฏิบัติตามสัญญา

ด้วยความต้องการสูงสุดของการคำนวณ AI จากผู้ให้บริการ GPU สามารถใช้ตำแหน่งของพวกเขาเพื่อสกัดกำไรสูงสุดจากลูกค้าที่ประสบความสำเร็จได้โพสต์จากปีที่แล้วในบทความที่ผู้พัฒนาคนดังอย่าง Pieter Levels แชร์ถึงประสบการณ์ของเขาและนักพัฒนาคนอื่นที่พบว่าผู้ให้บริการของพวกเขาเพิ่มราคาอย่างกะทันหันถึง 600% เมื่อเขาเผยแพร่รายได้จากแอปพลิเคชัน AI ของพวกเขา

ระบบที่ไม่มีศูนย์กลางสามารถให้ความสำคัญในการแก้ปัญหานี้ - การบังคับสัญญาโดยไม่มีการเชื่อมั่น เมื่อข้อตกลงถูกเข้ารหัสบนเชนแทนที่จะถูกฝังอยู่ในเงื่อนไขการให้บริการ พวกเขากลายเป็นโปร่งใสและไม่สามารถเปลี่ยนแปลงได้ ผู้ให้บริการไม่สามารถเพิ่มราคาหรือเปลี่ยนแปลงเงื่อนไขกลางสัญญาได้โดยไม่มีการเห็นด้วยโดยชัดเจนผ่านโปรโตคอล

นอกเหนือจากการกำหนดราคา ระบบที่ไม่ centralised สามารถใช้ประโยชน์จากtrusted execution environments (TEEs)เพื่อให้การคำนวณสามารถตรวจสอบได้ นั่นหมายความว่านักพัฒนาจะได้รับทรัพยากร GPU ที่พวกเขาจ่ายเงินให้แท้จริงทั้งในเรื่องของข้อมูลเฮาส์แวร์และการเข้าถึงที่ได้รับการจัดสรรเฉพาะ ตัวอย่างเช่น เมื่อนักพัฒนาจ่ายเงินเพื่อเข้าถึง H100 GPUs 8 ตัวสำหรับการฝึกโมเดล พรูฟร์เเวร์ทางคริปโทฟิคสามารถยืนยันได้ว่าข้อมูลที่พวกเขาทำงานจริงๆบน H100s ที่มีหน่วยความจำเต็ม 80GB ต่อ GPU ไม่ได้ถูกลดรุ่นลงนั่นเองหรือไม่ก็คือมีการใช้ทรัพยากรร่วมกับผู้ใช้อื่น ๆ อย่างเงียบ ๆ

Permissionless

เครือข่ายคอมพิวเตอร์แบบกระจายอํานาจสามารถให้ทางเลือกที่ไม่ได้รับอนุญาตอย่างแท้จริงแก่นักพัฒนา ซึ่งแตกต่างจากผู้ให้บริการแบบดั้งเดิมที่ต้องการกระบวนการ KYC ที่กว้างขวางและการตรวจสอบเครดิตทุกคนสามารถเข้าร่วมเครือข่ายเหล่านี้และเริ่มใช้หรือจัดหาทรัพยากรการประมวลผล สิ่งนี้ช่วยลดอุปสรรคในการเข้าสู่ตลาดได้อย่างมากโดยเฉพาะอย่างยิ่งสําหรับนักพัฒนาในตลาดเกิดใหม่หรือผู้ที่ทํางานในโครงการทดลอง

ความสำคัญของลักษณะที่ไม่ต้องขออนุญาตนี้กลายเป็นสิ่งที่มีประสิทธิภาพมากยิ่งขึ้นเมื่อพิจารณาถึงอนาคตของตัวแทน AI ตัวแทน AI เพิ่งเริ่มหาที่วางเท้าของตน ด้วยตัวแทนบูรณาการแนวตั้งคาดว่าจะเกินขนาดของอุตสาหกรรม SaaS ด้วยความชอบTruth TerminalและZerebroเราเห็นสัญญาณแรกของตัวแทนที่ได้รับเอกราชและเรียนรู้วิธีใช้เครื่องมือภายนอกเช่นโซเชียลมีเดียและตัวสร้างภาพ

เมื่อระบบเหล่านี้ก้าวไปสู่ความฉลาดที่ซับซ้อนมากขึ้น อาจจะต้องมีการจัดสรรทรัพยากรคอมพิวเตอร์ของตนเองอย่างไดนามิก ระบบเครือข่ายที่กระจายแบบที่สัญญาสามารถดำเนินการได้โดยไม่ต้องเชื่อมั่นในรหัสโดยตรงโดยตัวคอมพิวเตอร์แทนบุคคลตัวกลางเป็นอินฟราสตรัคเจอร์สำหรับอนาคตนี้ ตัวแทนสามารถเจรจาสัญญาโดยอัตโนมัติ ตรวจสอบประสิทธิภาพ และปรับใช้การคำนวณของตนอย่างอัตโนมัติตามความต้องการ โดยไม่ต้องการการเข้ามาของมนุษย์หรือการอนุมัติ

ภูมิประเทศ

แนวคิดของเครือข่ายคำนวณที่ไม่มีการกระจายก็ไม่ใหม่ - โครงการต่าง ๆ ได้พยายามทำให้มีการเข้าถึงทรัพยากรคำนวณที่ขาดแคลนมานานก่อนทวีความคิดปัจจุบันเครือข่ายเรนเดอร์ได้ทำงานตั้งแต่ปี 2017 โดยรวมทรัพยากร GPU สำหรับการสร้างภาพคอมพิวเตอร์อากาชเริ่มต้นในปี 2020 เพื่อสร้างตลาดเปิดรูปแบบสำหรับการคำนวณทั่วไป โครงการทั้งสองพบความสำเร็จปานกลางในส่วนของพวกเขา แต่ตอนนี้กำลังโฟกัสในโหลดงาน AI

อย่างเดียวกันระบบเก็บข้อมูลแบบกระจายเช่น gate.ioFilecoinและArweaveกำลังขยายธุรกิจเข้าสู่การคำนวณด้วย พวกเขารับรู้ว่าเมื่อ AI เป็นผู้บริโภคหลักของการเก็บข้อมูลและการคำนวณ การนำเสนอ解决方案ที่เชื่อมโยงกันเป็นสิ่งที่เหมาะสม

เช่นเดียวกับศูนย์ข้อมูลแบบดั้งเดิมที่ต้องพยายามการแข่งขันกับสถานที่ที่ตั้งไว้สำหรับสิ่งประดิษฐ์ AI เครือข่ายที่มีอยู่อย่างมากนี้ก็พบว่าต้องเผชิญกับการต่อสู้ที่ยากลำบากเมื่อเทียบกับโซลูชัน AI สามารถดำเนินการออร์เคสเทรชันที่ซับซ้อนที่ต้องการสำหรับภารกิจที่เกี่ยวข้องกับ AI แทนที่จะพบว่ากำลังค้นหาวิธีการโดยการเป็นผู้ให้บริการคอมพิวเตอร์แก่เครือข่าย AI อื่น ๆ ตัวอย่างเช่น Render และ Akash ตอนนี้ทำให้ GPU ของพวกเขามีอยู่ในตลาดของ io.net

เป็นตลาด AI-native ใหม่เหล่านี้คือใคร?io.netเป็นหนึ่งในผู้นำในการรวมแหล่งที่มีคุณภาพของ GPU สำหรับองค์กรในช่วงเริ่มแรก มี GPU ที่ได้รับการยืนยันมากกว่า 300,000 ในเครือข่ายของตน เขาบอกว่าพวกเขามีการประหยัดต้นทุนถึง 90% ต่อเทียบกับผู้เชี่ยวชาญที่ทำการรวมกลุ่มแล้ว และได้รับรายได้รายวันมากกว่า $25,000 ($9m ต่อปี) เช่นเดียวกัน Aethirรวมกว่า 40,000 GPU (รวมถึง H100 4,000+) เพื่อให้บริการทั้งกรณีการใช้งาน AI และคลาวด์คอมพิวติ้ง

ก่อนหน้านี้เราได้พูดถึงว่า Prime Intellect กำลังสร้างกรอบการฝึกอบรมแบบกระจายกลุ่มในมาตรฐานที่ใหญ่ขึ้น นอกจากนี้พวกเขายังให้บริการ ตลาด GPUที่ผู้ใช้สามารถเช่า H100s ตามความต้องการGensynเป็นโครงการอีกโครงการที่เล่นเดมพันใหญ่ในการฝึกอบรมแบบไม่มีส่วนในการกำหนดเวลาสอนที่คล้ายคลึงกับกรอบการฝึกอบรมรวมถึงการเข้าถึงตลาด GPU

ในขณะที่เหล่านี้เป็นตลาดที่ไม่ขึ้นกับภาระงาน (พวกเขาสนับสนุนการฝึกอบรมและการอิงเซ็น), โครงการบางโครงการเน้นไปที่การอิงเซ็นเท่านั้น - ภาระงานคำนวณที่กระจายที่เราตื่นเต้นที่สุด ที่สำคัญที่สุดคือ Exo Labs ซึ่งทำให้ผู้ใช้สามารถเรียกใช้ LLMs ระดับชั้นประทับใจบนอุปกรณ์ประจำวัน พวกเขาได้พัฒนาแพลตฟอร์มโอเพ่นซอร์สที่ช่วยให้การกระจายงานการอิงเซ็น AI ไปยังอุปกรณ์หลายตัวเช่น iPhone, Android และ Macแสดงเร็วๆ นี้ทำงานด้วยโมเดล 70-B (มีความยืดหยุ่นสูงสุดถึง 400-B) ที่กระจายอยู่ทั่วทั้งสี่เครื่อง Mac Mini รุ่น M4 Pro

โครงสร้างพื้นฐานที่สำคัญ

เมื่อซาโตชิเปิดตัวบิตคอยน์ในปี 2008 ประโยชน์ของมัน คือ ทองคำดิจิทัลที่มีจำนวนจำกัดและเป็นเงินที่ต้านการเซ็นเซอร์ นั้นเป็นเพียงทฤษฎีเท่านั้น ระบบการเงินดั้งเดิม ถึงแม้มันจะมีข้อบกพร่อง ก็ยังทำงานได้ ธนาคารกลางยังไม่ได้เริ่มการพิมพ์เงินอย่างไม่เกรงขาม การลงโทษระหว่างประเทศยังไม่ได้ถูกใช้อย่างเต็มที่ต่อเศรษฐกิจทั้งหมด ความจำเป็นที่จะต้องมีทางเลือก ดูเหมือนเป็นเรื่องทฤษฎีมากกว่าเรื่องเร่งด่วน

ใช้เวลาหลายสิบปีในการผ่อนคลายเชิงปริมาณ ซึ่งนําไปสู่การขยายตัวทางการเงินในยุคโควิด เพื่อประโยชน์ทางทฤษฎีของ Bitcoin ในการตกผลึกเป็นมูลค่าที่จับต้องได้ วันนี้เมื่ออัตราเงินเฟ้อกัดกร่อนการออมและความตึงเครียดทางภูมิรัฐศาสตร์คุกคามการครอบงําของดอลลาร์บทบาทของ Bitcoin ในฐานะ "ทองคําดิจิทัล" ได้พัฒนาจากความฝันของ cypherpunk เป็นสินทรัพย์ที่สถาบันและรัฐชาตินํามาใช้

แบบนี้เกิดซ้ำกับสกุลเงินที่มั่นคง ทันทีที่มีบล็อกเชนชนิดทั่วไปใน Ethereum มีอยู่ สกุลเงินที่มั่นคงก็ทันทีกลายเป็นหนึ่งในกรณีใช้ที่มีความเป็นไปได้มากที่สุด แต่ใช้เวลาหลายปีในการปรับปรุงเทคโนโลยีและเศรษฐกิจของประเทศเช่นอาร์เจนตินาและตุรกีที่ถูกทำลายด้วยการเงินเพื่อสกุลเงินที่มั่นคงให้ก้าวไกลจากนวัตกรรมคริปโตเล็กน้อยเป็นโครงสร้างการเงินที่สำคัญที่เคลื่อนย้ายเงินตันต่อปีหลายล้านดอลลาร์

เทคโนโลยีรหัสสกุลเงินเป็นเทคโนโลยีที่เป็นธรรมชาติที่เป็นเทคโนโลยีป้องกัน - นวัตกรรมที่ดูเหมือนไม่จำเป็นในช่วงเวลาที่ดี แต่กลายเป็นสิ่งจำเป็นในช่วงวิกฤต ความจำเป็นในการใช้งานเหล่านี้เกิดขึ้นเมื่อระบบที่มีอยู่ล้มเหลวหรือเปิดเผยความจริงของพวกเขาเท่านั้น

วันนี้เรากำลังอยู่ในยุคทองของ AI ทุนการลงทุนไหลเวียนอิสระ บริษัทแข่งขันเพื่อให้บริการในราคาที่ต่ำที่สุดและข้อจำกัดหากมีอยู่ก็น้อยมาก ในสภาพแวดล้อมเช่นนี้ ทางเลือกที่ไม่ส่วนกลางอาจดูซับซ้อนได้ ทำไมต้องเจริญกับเศรษฐศาสตร์โทเค็นและระบบพิสูจน์เมื่อผู้ให้บริการแบบดั้งเดิมทำงานได้ดี

แต่ด้วยการเริ่มต้นของคลื่นเทคโนโลยีที่สำคัญในอดีต ความกรุณาอย่างนี้เป็นชั่วคราวเท่านั้น เราอยู่ในช่วงเวลาสองปีเพียงเท่านั้นในการปฏิวัติ AI ในขณะที่เทคโนโลยีกำลังเจริญเติบโตและผู้ชนะในการแข่งขัน AI กำลังเกิดขึ้น พลังจริงๆ ของพวกเขาจะปรากฏออกมา บริษัทที่เดียวกันที่ในปัจจุบันนี้มอบการเข้าถึงอย่างเอื้ออาจจะมีอำนาจในอนาคต - ผ่านการกำหนดราคา ผ่านนโยบาย ผ่านการอนุญาต

นี่ไม่ใช่รอบที่สำคัญของเทคโนโลยีอื่น ๆ ที่เกี่ยวข้อง ปัจจุบัน AI เป็นฐานการดำเนินชีวิตใหม่ของมนุษยชาติ - เลนส์ที่เราจะใช้ประมวลผลข้อมูล สร้างศิลปะ ตัดสินใจ และสุดท้ายแล้ว พัฒนาตนเองเป็นสายพันธุ์ใหม่ การคำนวณไม่เพียงเป็นเพียงแค่ทรัพยากร มันเป็นสกุลเงินของความคิดเป็นรากฐาน ผู้ที่ควบคุมการไหลของมันจะเป็นผู้กำหนดทางหน้าสมองของมนุษยชาติ

การคำนวณที่ไม่centralised ไม่ได้เกี่ยวกับการ提供 GPU ราคาถูกหรือตัวเลือกการ implement ที่ยืดหยุ่นมากขึ้น (แม้ว่ามันต้องทำทั้งสองอย่างเพื่อประสบความสำเร็จ) มันเกี่ยวกับการให้ความสำคัญให้การเข้าถึงปัจจุบัน สู่ปัจจุบัน ที่เป็นเทคโนโลยีที่ทรงพลังที่สุดของมนุษย์ ที่ยังคงไม่สามารถถูกเซ็นเซอร์ได้และเป็นอิสระ มันเป็นเท็จารณะของเราต่ออนาคตที่เป็นอนิเวทิเบิลที่บริษัทในอนาคตจะกำหนดไม่เพียงแค่ใครสามารถใช้ AI ได้ แต่ยังมีวิธีการคิดด้วย

เรากำลังสร้างระบบเหล่านี้ในวันนี้ไม่ใช่เพราะว่าเราต้องการใช้งานทันที แต่เพราะว่าพวกเขาจะเป็นสิ่งสำคัญในวันพรุ่งนี้ เมื่อ AI เป็นสิ่งที่เป็นพื้นฐานสำหรับสังคมเช่นเดียวกับเงินการคำนวณที่ไม่ต้องได้รับอนุญาตจะไม่เป็นทางเลือกเท่าที่ Bitcoin และ stablecoin เป็นสิ่งสำคัญในการต่อต้านการควบคุมทางการเงิน

การแข่งขันสู่ซุปเปอร์อินเทอร์เล็กชั่นที่อาจอยู่นอกเหนือจากระบบแบบกระจาย แต่การให้แน่นอนว่าผลของปัญญาเทียมนี้ยังคงเข้าถึงได้สำหรับทุกคน? นั่นเป็นการแข่งขันที่คุ้มค่าที่ควรทำ

ประกาศการปฏิเสธความรับผิด

  1. บทความนี้ถูกพิมพ์ซ้ำจาก [Decentralised.co]. ส่งต่อชื่อเรื่องเดิม: คำนวณแบบกระจาย ลิขสิทธิ์ทั้งหมดเป็นของผู้เขียนเดิม [ Shlok Khemani]. หากมีคำประทับใจต่อการเผยแพร่นี้ กรุณาติดต่อ Gate Learnทีมของเราจะดูแลมันโดยเร็ว
  2. คำประกาศความรับผิดชอบ: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงของผู้เขียนเท่านั้นและไม่เป็นการให้คำแนะนำในการลงทุนใด ๆ
  3. การแปลบทความเป็นภาษาอื่นๆ ทำโดยทีม Gate Learn หากไม่ได้กล่าวถึง การคัดลอก การแจกจ่าย หรือการลอกเลียนแบบบทความที่แปลนั้นถือเป็นการละเมิดกฎหมาย

ทำไมการคำนวณแบบกระจายเป็นตัวขับเคลื่อนสำคัญสำหรับการพัฒนา AI หรือความสามารถในการประมวลผลของเครือข่ายคอมพิวเตอร์?

ขั้นสูง1/7/2025, 6:46:55 AM
บทความวันนี้เกี่ยวกับเซ็กเตอร์การคำนวณแบบกระจายที่กำลังเจริญขึ้นในโลกคริปโต พวกเราได้ลงทุนในทัศนคติพื้นฐานทางด้านโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าทางเลือกแบบกระจายสามารถแข่งขันในระดับเสรีได้อย่างไร

ส่งต่อชื่อเรื่องเดิม: Decentralised Compute

บทความวันนี้เกี่ยวกับภาครัฐที่เกิดขึ้นในส่วนของการคำนวณแบบกระจายในโลกคริปโต พวกเราจะศึกษาพื้นที่พื้นฐานของโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าสถานการณ์แบบกระจายสามารถแข่งขันได้ในระดับที่เป็นไปได้

เราสำรวจคำถามเช่น: ASI สามารถฝึกอบรมบนเครือข่ายกระจายได้หรือไม่? เครือข่ายคริปโตมีข้อดีที่ไม่เหมือนใครอย่างไร? และทำไมโครงสร้างคอมพิวเตอร์ที่ไม่จำกัดสิทธิ์อาจกลายเป็นสิ่งที่สำคัญต่อ AI เช่นเดียวกับ Bitcoin ต่อการเงิน

รูปแบบที่คุณจะสังเกตเห็นบ่อยในบทความคือการเติบโตแบบกำลังสองของทุกอย่างเกี่ยวกับ AI - การลงทุน การคำนวณ และความสามารถ สิ่งนี้สอดคล้องกับการฟื้นคืนในตลาดคริปโตและความสนใจทางจิตวิทยา เราตื่นเต้นมากเกี่ยวกับจุดที่สองนี้ของคลื่นเทคโนโลยีที่ใหญ่ใหญ่

สวัสดี!

ในวันที่แสงแดดส่องอย่างสดใสที่เมมฟิส รัฐเทนเนสซี, เครื่องบินลอยอยู่บนอาคารอุตสาหกรรมซึ่งผู้โดยสารกำลังถ่ายภาพอย่างระหว่างกัน. นี่ไม่ใช่ฉากจากการลับสงครามเย็นแต่เป็นเหตุการณ์ในปี 2024 ครับ ผลักเป้าหมายไม่ใช่ที่ตั้งทหารหรือสถานที่แข็งแรงที่เติมยูเรเนียมแต่เป็นโรงงานเครื่องใช้ไฟฟ้าเก่าที่ตอนนี้เป็นที่ตั้งของหนึ่งในเครื่องคอมพิวเตอร์ที่มีกำลังสูงที่สุดของโลก. ผู้โดยสารไม่ใช่สถาบันต่างด้าวแต่เป็นพนักงานของบริษัทศูนย์ข้อมูลคู่แข่ง

ทุกๆ สามสิบปี จะเกิดเทคโนโลยีที่เปลี่ยนแปลงเป็นเหตุการณ์ที่ไม่สามารถถูกทำลายได้ เหตุการณ์เช่นนี้จะเป็นการแข่งขันระหว่างองค์กรที่มีอิทธิพลมากที่สุดในโลกเพื่อเข้าใจเทคโนโลยีนี้ก่อนใคร ผลตอบแทนมีค่ามากมาย และผลที่เกิดขึ้นเมื่อล้มเหลวก็มีผลกระทบที่ทำลายทันที ดังนั้น องค์กรเหล่านี้จึงรีบรวบรวมทรัพยากรทั้งหมดที่มีอยู่ในอาร์เซนอลของตน - ความสามารถของมนุษย์และทุนทรัพย์ - เพื่อเป็นเจ้าของเทคโนโลยีนี้

ในศตวรรษที่ 20 มีเทคโนโลยีสองอย่างที่ตรงกับคำนิยามนี้ คืออาวุธนิวเคลียร์และการสำรวจอวกาศ การแข่งขันในการใช้เทคโนโลยีเหล่านี้เกี่ยวข้องกับประเทศที่มีอำนาจมากที่สุด ความสำเร็จของสหรัฐฯ ในทั้งสองสามารถเซ็มเมนต์สถานะเป็นกำลังอำนาจสุดยอดของโลก นำเข้ายุคที่ไม่เหมือนใคร สำหรับผู้แพ้ - เยอรมันนาซีและสหภาพโซเวียต ผลกระทบที่เกิดขึ้นมีผลร้ายอย่างมาก แม้ในบางครั้งอาจเป็นที่สิ้นสุด

โรงงาน K-25 ขนาดใหญ่ 44 เอเคอร์ในโอ๊คริดจังหวัดเทนเนสซี ประเทศสหรัฐอเมริกา ที่ผลิตยูเรเนียมสำหรับอาวุธนิวเคลียร์ครั้งแรกต้นฉบับ)

ความชนะของอเมริกาเสียเงินมาก. โครงการแมนฮัตตันใช้เงินเกือบ 2 พันล้านดอลลาร์ (ประมาณ 30 พันล้านดอลลาร์ที่ปรับเพื่อความเทียบเท่ากับการเงิน) และจ้างงานกว่า 120,000 คน - คนละคนในพันคนของชาวอเมริกันหนึ่งคน. การแข่งขันอวกาศต้องการทรัพยากรที่มากกว่านั้น. โปรแกรม Apollo ใช้เงิน 28 พันล้านดอลลาร์ในยุค 1960 (ประมาณ 300 พันล้านดอลลาร์ในสกุลเงินปัจจุบัน) และมีผู้ร่วมงานกว่า 400,000 คน - คนละคนใน 490 คนของชาวอเมริกัน. ในยอดสูงสุดของปี 1966 หน่วยงาน NASA ควบคุมงบประมาณของรัฐบาลสหรัฐฯ 4.4% ของงบประมาณทั้งหมด

Apollo 11 กำลังจะขึ้นอวกาศเพื่อภารกิจไปยังดวงจันทร์แหล่งกำเนิด)

การเปิดตัว ChatGPT ในปี 2022 ติดตามเริ่มขึ้นของการแข่งขันใหม่ที่มีสัดส่วนที่เปลี่ยนแปลงสำคัญกับการตามหาปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัย

คราวนี้ผู้เข้าแข่งขันไม่ใช่รัฐบาล (อย่างน้อยก็ยังไม่ใช่ในขณะนี้) แต่เป็นบริษัทที่ใหญ่ที่สุดในโลก (Microsoft, Google, Meta, Amazon), สตาร์ทอัพที่ฮอตที่สุด (OpenAI, Anthropic), และบุคคลที่รวยที่สุด (Elon Musk) ในขณะที่ Big Tech มีทุนทรัพย์ที่ไม่เคยมีมาก่อนในการสร้างพื้นฐานสำหรับการฝึกโมเดลที่มีพลังมากขึ้นอย่างไม่เคยมีมาก่อน สตาร์ทอัพกำลังรักษาrecord-breakingการระดมทุนเวนเชอร์แคปปิตอล อีลอนก็คือทำสิ่งที่ Elon ทำศูนย์ข้อมูลภายใต้การตรวจสอบความปลอดภัยเป็นของบริษัทของเขา xAI)

จากนั้นก็มีคนอื่น ๆ ไม่ว่าจะเป็นองค์กร บริษัท ขนาดเล็กและสตาร์ทอัพที่อาจไม่ปรารถนาที่จะสร้าง ASI แต่กระตือรือร้นที่จะควบคุมความสามารถล้ําสมัยที่ปลดล็อกโดย AI เพื่อเพิ่มประสิทธิภาพธุรกิจของพวกเขาทําลายอุตสาหกรรมหรือสร้างสิ่งใหม่ทั้งหมด รางวัลที่เป็นไปได้นั้นกว้างใหญ่มากจนทุกคนกําลังดิ้นรนเพื่อเรียกร้องส่วนแบ่งจากเศรษฐกิจที่ขับเคลื่อนด้วยเครื่องจักรอัจฉริยะใหม่นี้

หัวใจสําคัญของการปฏิวัติ AI คือองค์ประกอบที่สําคัญที่สุด: หน่วยประมวลผลกราฟิก (GPU) เดิมทีออกแบบมาเพื่อขับเคลื่อนวิดีโอเกมชิปคอมพิวเตอร์เฉพาะนี้ได้กลายเป็นสินค้าที่ร้อนแรงที่สุดในโลก ความต้องการ GPU นั้นล้นหลามจน บริษัท ต่างๆมักอดทน รายชื่อที่ต้องรอนานหลายเดือนเพียงเพื่อซื้อบางส่วน ความต้องการนี้ทำให้ NVIDIA ผู้ผลิตหลักของพวกเขา ได้รับการยิงยาวเข้าไปในตำแหน่งของบริษัทมูลค่าที่สูงที่สุดในโลก

สําหรับธุรกิจที่ไม่สามารถหรือไม่เต็มใจที่จะซื้อ GPU โดยตรงการเช่าพลังการประมวลผลได้กลายเป็นตัวเลือกที่ดีที่สุดต่อไป สิ่งนี้ได้กระตุ้นการเพิ่มขึ้นของผู้ให้บริการคลาวด์ AI ซึ่งเป็น บริษัท ที่ดําเนินงานศูนย์ข้อมูลที่ซับซ้อนซึ่งปรับให้เหมาะกับความต้องการด้านการคํานวณของ AI บูม อย่างไรก็ตามความต้องการที่เพิ่มขึ้นและลักษณะที่คาดเดาไม่ได้หมายความว่าไม่มีการรับประกันราคาหรือความพร้อมใช้งาน

I ถกเถียงว่าสกุลเงินดิจิทัลทำหน้าที่เป็นเทคโนโลยี "Coasian" ที่ออกแบบมาเพื่อ "เจียมของลื่น ปูถนน และเสริมสร้างสะพาน" เพื่อให้นวัตกรรมที่รบกวนเกิดขึ้นได้ ส่วน AI กำลังเกิดขึ้นเป็นแรงกระตุ้นของยุคเรา ความขาดแคลนและค่าใช้จ่ายที่สูงของการเข้าถึง GPU เป็นอุปสรรคของนวัตกรรมหลายราย เจ้าหน้าที่ของซีรีย์คริปโตกำลังเข้ามาแก้ไขปัญหาเหล่านี้ด้วยสิ่งสร้างสรรค์ที่ใช้เทคโนโลยีบล็อกเชน

ในบทความวันนี้เราเริ่มถอยห่างจาก crypto เพื่อตรวจสอบพื้นฐานของโครงสร้างพื้นฐาน AI สมัยใหม่ - เครือข่ายประสาทเทียมเรียนรู้อย่างไรทําไม GPU จึงมีความสําคัญและศูนย์ข้อมูลในปัจจุบันมีการพัฒนาอย่างไรเพื่อตอบสนองความต้องการด้านการคํานวณที่ไม่เคยมีมาก่อน จากนั้นเราจะดําดิ่งสู่โซลูชันการประมวลผลแบบกระจายอํานาจสํารวจว่าพวกเขาสามารถแข่งขันกับผู้ให้บริการแบบดั้งเดิมได้จริงหรือไม่ข้อได้เปรียบที่ไม่เหมือนใครของเครือข่าย crypto ที่นําเสนอและทําไมแม้ว่าพวกเขาจะไม่ให้ AGI แก่เรา แต่ก็ยังจําเป็นต่อการทําให้แน่ใจว่าทุกคนสามารถเข้าถึงประโยชน์ของ AI ได้

เรามาเริ่มต้นด้วยเหตุผลที่ GPUs มีความสำคัญมากในที่แรก

GPUs

นี่คือ David รูปปั้นจากหินอ่อนสูง 17 ฟุต น้ำหนัก 6 ตัน ที่ถูกสร้างขึ้นโดยนักปั้นอัจฉริยะชาวอิตาเลียนของยุค Renaissance ซึ่งแสดงให้เห็นถึงฮีโร่ทางพระคำจากเรื่องราวเกี่ยวกับ David กับ Goliath และถูกพิจารณาว่าเป็นเรื่องสร้างสรรค์สุดยอดเนื่องจากการแสดงตัวอักษรของมนุษย์ที่ไม่มีตำหนิและการใส่ใจอย่างล้ำลึกและรายละเอียด

เหมือนกับปูนหินหลักทั้งหมด ดาวิดเริ่มต้นจากชิ้นหินคาราราขนาดใหญ่ที่ไม่เรียบร้อย ในการเป็นรูปที่ยอดเยี่ยมสุดท้ายของมัน ไมเคิลแองเจโลต้องทำการล้างแรงโดยวิธีการตัดกระจายในหิน โดยเริ่มต้นด้วยการเสียบสีกว้างเพื่อสร้างรูปพื้นฐานของรูปร่างมนุษย์ จากนั้นเขาก้าวหน้าไปสู่รายละเอียดที่สูงขึ้นเรื่อยๆ - เส้นโค้งของกล้ามเนื้อ เส้นเลือดที่ตึงตัว เสียงแสดงออกที่ละเอียดอ่อนในดวงตา ในขณะที่จำเป็น ใช้เวลาสามปีให้ไมเคิลแองเจโลปลดปล่อยเดวิดออกจากหิน

แต่ทำไมถึงพูดถึงรูปปั้นหินอันเก่ากว่าพันปีในบทความเกี่ยวกับ AI?

เช่นเดวิดทุกเครือข่ายประสาทเริ่มต้นเป็นศักยภาพสุด pure - คอลเลคชันของโหนดที่เริ่มต้นด้วยตัวเลขสุ่ม (น้ำหนัก) เช่นเดียวกับบล็อกขนาดใหญ่ของหิน Carrara แบบไม่มีรูปร่าง

โมเดลดิบนี้ถูกป้อนข้อมูลการฝึกอบรมซ้ําๆ ซึ่งเป็นอินสแตนซ์ของอินพุตจํานวนนับไม่ถ้วนที่จับคู่กับเอาต์พุตที่ถูกต้อง จุดข้อมูลแต่ละจุดที่ผ่านเครือข่ายทําให้เกิดการคํานวณหลายพันรายการ ในทุกโหนด (เซลล์ประสาท) การเชื่อมต่อขาเข้าจะคูณค่าอินพุตด้วยน้ําหนักของการเชื่อมต่อรวมผลิตภัณฑ์เหล่านี้และแปลงผลลัพธ์ผ่าน "ฟังก์ชั่นการเปิดใช้งาน" ที่กําหนดความแข็งแรงในการยิงของเซลล์ประสาท

เช่นเดียวกับมิเคลแองจ๊อเลาจะถอยหลังมองผลงานของเขาและให้การประเมินและปรับปรุงระบบปรับปรุงทางประวัติศาสตร์เรียนรู้หลังจากการผ่านไปทางข้างหน้าแต่ละครั้งเครือข่ายเปรียบเทียบผลลัพธ์กับคำตอบที่ถูกต้องและคำนวณขอบเขตของความผิดพลาดของมันผ่านกระบวนการที่เรียกว่า backpropagation มันวัดว่าแต่ละการเชื่อมต่อมีส่วนสําคัญอย่างไรต่อความผิดพลาดและเช่นในการโยธามิเคลแองจ๊อเลาทำการปรับปรุงค่าของมันถ้าการเชื่อมต่อนั้นทําให้การคาดการณ์ผิดพลาดมีผลกระทบลดลง ถ้ามันช่วยให้ได้คําตอบที่ถูกต้องมีผลกระทบเพิ่มขึ้น

เมื่อข้อมูลทั้งหมดผ่านเครือข่าย (เสร็จสิ้นขั้นตอนการเผยแพร่ไปข้างหน้าและข้างหลังหนึ่งขั้นตอนต่อจุดข้อมูล) จะเป็นจุดสิ้นสุดของ "ยุค" กระบวนการนี้ทําซ้ําหลายครั้งโดยแต่ละรอบจะขัดเกลาความเข้าใจของเครือข่าย ในช่วงยุคแรก ๆ การเปลี่ยนแปลงน้ําหนักนั้นน่าทึ่งเนื่องจากเครือข่ายทําการปรับเปลี่ยนในวงกว้างเช่นสิ่วตัวหนาตัวแรก ในยุคต่อมาการเปลี่ยนแปลงจะละเอียดยิ่งขึ้นโดยปรับแต่งการเชื่อมต่อเพื่อประสิทธิภาพสูงสุดเช่นเดียวกับการสัมผัสขั้นสุดท้ายที่ละเอียดอ่อนทําให้รายละเอียดของเดวิดออกมา

ในที่สุด หลังจากการทดลองซ้ำซ้อนหรือซ้ำซ้อนหลายล้านครั้ง โมเดลที่ได้รับการฝึกจะเกิดขึ้น อย่างเดวิดที่ยกย่องในรูปแบบที่สมบูรณ์ของมัน เครือข่ายประสาทเปลี่ยนแปลงจากเสียงรบกวนสุ่มเป็นระบบที่สามารถรู้จำรูปแบบ ทำนาย สร้างภาพของแมวขี่สกู๊ตเตอร์ หรือทำให้คอมพิวเตอร์เข้าใจและตอบสนองภาษามนุษย์ได้

ทำไมใช้ GPU?

ไมเคิลแองเจโลซึ่งทํางานคนเดียวกับเดวิดสามารถตีสิ่วได้ครั้งละหนึ่งครั้งโดยแต่ละครั้งต้องใช้การคํานวณมุมแรงและตําแหน่งที่แม่นยํา ความแม่นยําที่อุตสาหะนี้เป็นเหตุผลว่าทําไมเขาจึงใช้เวลาสามปีอย่างไม่รู้จักเหน็ดเหนื่อยในการทําผลงานชิ้นเอกของเขาให้สําเร็จ แต่ลองนึกภาพประติมากรที่มีทักษะเท่าเทียมกันหลายพันคนทํางานกับเดวิดในการประสานงานที่สมบูรณ์แบบ—ทีมหนึ่งบนลอนผมอีกทีมหนึ่งบนกล้ามเนื้อลําตัวและอีกหลายร้อยคนในรายละเอียดที่ซับซ้อนของใบหน้ามือและเท้า ความพยายามคู่ขนานดังกล่าวจะบีบอัดสามปีนั้นให้เหลือเพียงไม่กี่วัน

อย่างไรก็ตาม ในขณะที่ CPU เป็นทรงพลังและแม่นยำ แต่พวกเขาสามารถทำเพียงหนึ่งการคำนวณในเวลาเดียว การฝึกฝนเครือข่ายประสาทเทียมไม่ต้องการการคำนวณที่ซับซ้อนแต่ต้องการการคูณและการบวกจำนวนแสนล้านที่หลายๆ ครั้งในแต่ละโหนด ตัวอย่างเช่น เครือข่ายประสาทเทียมตัวอย่างที่กล่าวไว้ก่อนหน้านี้ ที่มีเพียง 18 โหนดและประมาณ 100 การเชื่อมต่อ (พารามิเตอร์) สามารถฝึกฝนบน CPU ได้ในเวลาระ reasonable.

อย่างไรก็ตาม โมเดลที่มีกำลังการทำงานที่สุดในปัจจุบัน เช่น GPT-4 ของ OpenAI มีพารามิเตอร์ 1.8 ล้านล้าน! แม้แต่โมเดลขนาดเล็กก็ต้องมีพารามิเตอร์อย่างน้อยหนึ่งพันล้าน การฝึกโมเดลเหล่านี้หนึ่งการคำนวณต่อหนึ่งครั้งจะใช้เวลาหลายศตวรรษ นี่คือสิ่งที่ GPU ทำได้ดี: พวกเขาสามารถทำการคำนวณทางคณิตศาสตร์ที่เรียบง่ายจำนวนมากพร้อมกัน ทำให้เหมาะสำหรับการประมวลผลโหนดของเครือข่ายประสาทหลายๆ โหนดพร้อมกัน

GPU รุ่นล่าสุดของ NVIDIA คือ B200 ประกอบด้วยมากกว่า 200 พันล้านตัวขยายและสนับสนุนการคำนวณแบบขนาน 2,250 ล้านครั้งต่อวินาที (2,250 TFLOPS) กราฟิกการ์ด B200 รุ่นเดียวสามารถจัดการรุ่นที่มีพารามิเตอร์มากถึง 740 พันล้านตัว สิ่งเหล่านี้แสดงให้เห็นถึงความสามารถทางวิศวกรรมที่สูงของยุคปัจจุบัน ซึ่งอธิบายว่าทำไม NVIDIA ได้เห็นการเพิ่มขึ้นของราคาหุ้นมากกว่า 2,500% ในระยะเวลา 5 ปี โดยขายแต่ละหน่วยในราคา 40,000 ดอลลาร์

เจ็นเซ็น ฮวัง นำเสนอ NVIDIA B200

แม้แต่เครื่องจักรที่น่าเกรงขามเหล่านี้ก็ไม่สามารถฝึกโมเดล AI เพียงอย่างเดียวได้ จําได้ว่าในระหว่างการฝึกอบรมอินสแตนซ์ข้อมูลแต่ละรายการจะต้องผ่านโมเดลในรอบไปข้างหน้าและข้างหลังทีละรายการ โมเดลภาษาขนาดใหญ่สมัยใหม่ (LLMs) ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ครอบคลุมอินเทอร์เน็ตทั้งหมด ตัวอย่างเช่น GPT-4 ประมวลผลโทเค็นประมาณ 12 ล้านล้านโทเค็น (ประมาณ 9 ล้านล้านคํา) และคาดว่าโมเดลรุ่นต่อไปจะรองรับโทเค็นได้มากถึง 100 ล้านล้านโทเค็น การใช้ GPU ตัวเดียวสําหรับข้อมูลปริมาณมหาศาลเช่นนี้ยังคงต้องใช้เวลาหลายศตวรรษ

คำตอบอยู่ในการเพิ่มชั้นของความสามารถในการประยุกต์ใช้พรัอลิซึม-การสร้างกลุ่ม GPU ที่งานฝึกอบรมถูกกระจายไประหว่าง GPU หลายตัวที่ทำงานร่วมกันเป็นระบบเดียวกัน ภารกิจการฝึกโมเดลสามารถถูกแบ่งขึ้นเป็นขั้นตอนได้ในทางที่สาม

Data Parallelism: หลาย GPU แต่ละตัวเก็บรักษาสำเนาแบบเต็มของโมเดลเนอรอลเน็ตเวิร์คในขณะที่ประมวลผลส่วนต่าง ๆ ของข้อมูลการฝึกอบรม แต่ละ GPU ประมวลผลชุดข้อมูลที่ได้รับมอบหมายอิสระกันก่อนที่จะซิงโครไนซ์เป็นระยะเวลาบางครั้งกับ GPU ทั้งหมดอื่น ๆ ในช่วงซิงโครไนเซชันนี้ GPU จะติดต่อสื่อสารกันเพื่อค้นหาค่าเฉลี่ยรวมของน้ำหนักและอัปเดตน้ำหนักแต่ละคนให้เหมือนกัน ด้วยเหตุนี้ GPU จะดำเนินการฝึกอบรมต่อที่ชุดข้อมูลของตัวเองก่อนเวลาที่จะซิงค์อีกครั้ง

เมื่อโมเดลมีขนาดใหญ่ขึ้น การคัดลอกเดียวสามารถกลายเป็นใหญ่เกินไปที่จะพอดีกับหนึ่ง GPU ตัวอย่างเช่น GPU ล่าสุดรุ่น B200 สามารถรองรับเพียง 740 พารามิเตอร์ล้านล้านในขณะที่โมเดล GPT-4 เป็นโมเดลพารามิเตอร์ 1.8 ล้านพันล้าน การแยกข้อมูลข้าม GPU แต่ละตัวไม่สามารถทำงานในกรณีนี้

Tensor Parallelism: วิธีการนี้จัดการกับข้อ จํากัด ของหน่วยความจําโดยการกระจายงานและน้ําหนักของแต่ละเลเยอร์รุ่นผ่าน GPU หลายตัว GPU แลกเปลี่ยนการคํานวณระดับกลางกับคลัสเตอร์ทั้งหมดในระหว่างทุกขั้นตอนการขยายพันธุ์ไปข้างหน้าและข้างหลัง โดยทั่วไปแล้ว GPU เหล่านี้จะถูกจัดกลุ่มในเซิร์ฟเวอร์แปดหน่วย ซึ่งเชื่อมต่อผ่าน NVLink ซึ่งเป็นการเชื่อมต่อระหว่าง GPU-to-GPU โดยตรงความเร็วสูงของ NVIDIA การตั้งค่านี้ต้องใช้แบนด์วิดท์สูง (สูงสุด 400 Gb/s) และการเชื่อมต่อที่มีเวลาแฝงต่ําระหว่าง GPU คลัสเตอร์เทนเซอร์ทําหน้าที่เป็น GPU ขนาดใหญ่ตัวเดียวได้อย่างมีประสิทธิภาพ

การแบ่งการประมวลผลแบบ Pipeline: วิธีนี้แบ่งโมเดลออกเป็นหลาย GPU โดยแต่ละ GPU จะจัดการเลเยอร์ที่กำหนดไว้เฉพาะ ข้อมูลจะไหลผ่าน GPU เหล่านี้ในลำดับสายซึ่งคล้ายกับการวิ่งรีเลย์ที่แต่ละนักวิ่ง (GPU) จัดการส่วนของตนเองก่อนที่จะส่งแถบไปต่อ การแบ่งการประมวลผลแบบ pipeline เป็นวิธีที่มีประสิทธิภาพมากในการเชื่อมต่อเซิร์ฟเวอร์ 8-GPU ต่างๆ ภายในศูนย์ข้อมูลโดยใช้เครือข่าย InfiniBand ความเร็วสูงสำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ แม้ว่าความต้องการในการสื่อสารจะเกินความสามารถของการประมวลผลแบบข้อมูลแบบขนาน แต่มันยังน้อยกว่าการแบ่งการประมวลผลแบบตรีนเซอร์ที่มีการแลกเปลี่ยน GPU อย่างหนัก

ขนาดของคลัสเตอร์ที่ทันสมัยนั้นน่าทึ่งมาก GPT-4 ที่มีพารามิเตอร์ 1.8 ล้าน และชั้น 120 ชั้น ต้องใช้ A100 GPUs จำนวน 25,000 เครื่องในการฝึกอบรม กระบวนการนี้ใช้เวลาสามเดือนและค่าใช้จ่ายเกิน 60 ล้านดอลลาร์ A100 เป็นรุ่นเก่าสองรุ่น; หากใช้ B200 GPUs รุ่นปัจจุบัน จะต้องใช้เพียงประมาณ 8,000 หน่วยและใช้เวลาในการฝึกอบรมเพียง 20 วันเท่านั้น แค่การสาธิตถึงความเร็วของ AI ที่เคลื่อนไหวได้อย่างรวดเร็ว

แต่คลาสของโมเดล GPT-4 นั้นเป็นของเล่นเก่าแล้ว การฝึกอบรมสำหรับรุ่นก้าวหน้าของโมเดลที่มีอยู่ในศูนย์ข้อมูลที่มีในตัวจำนวนมากถึง 100,000 B100 หรือ H100 GPUs (ส่วนหนึ่งเป็นรุ่นก่อนหน้า) กลุ่มเหล่านี้ซึ่งมีมูลค่าเกิน 4 พันล้านเหรียญอเมริกันในการลงทุนใน GPU คือเครื่องคอมพิวเตอร์ที่มีความสามารถที่สูงที่สุดของมนุษย์ สามารถให้พลังคำนวณต่อเนื่องมากถึง 4 เท่าของอุปกรณ์ที่เป็นเจ้าของโดยรัฐบาล

นอกเหนือจากการรักษาความปลอดภัยการประมวลผลดิบแล้วผู้ปรารถนา ASI ยังประสบปัญหาอื่นเมื่อพยายามตั้งค่าคลัสเตอร์เหล่านี้: ไฟฟ้า GPU แต่ละตัวใช้พลังงาน 700W เมื่อคุณรวม 100,000 คลัสเตอร์ทั้งหมด (รวมถึงฮาร์ดแวร์ที่รองรับ) จะใช้พลังงานมากกว่า 150MW การบริโภคนี้เท่ากับเมืองที่มีประชากร 300,000 คน ซึ่งเทียบได้กับนิวออร์ลีนส์หรือซูริก

ความบ้าบอยยังไม่สิ้นที่นี่ ส่วนใหญ่ผู้สมัคร ASI เชื่อว่ากฎหมายเกี่ยวกับการขยายมาตรา—ซึ่งแนะนำว่าประสิทธิภาพของโมเดลจะดีขึ้นอย่างที่คาดการณ์ได้เมื่อขนาดของโมเดล ขนาดของชุดข้อมูล และการคำนวณการฝึกฝนเพิ่มขึ้น—จะยังคงเป็นความจริง แผนการฝึกวิ่งของโมเดลที่มีพลังงานมากขึ้นก็ได้เริ่มมีการดำเนินการแล้ว ถึงปี 2025 คาดว่าค่าใช้จ่ายของแต่ละกลุ่มการฝึกฝนจะเกิน 10 พันล้านดอลลาร์ ถึงปี 2027 เกิน 100 พันล้านดอลลาร์ ขณะที่ตัวเลขเหล่านี้เข้าใกล้กับการลงทุนของรัฐบาลสหรัฐในโปรแกรมอพอลโล จึงเป็นชัดเจนว่าทำไมการบรรลุความสามารถทางปัญญาประดิษฐ์ (ASI) จึงเป็นการแข่งขันที่กำหนดค่าของยุคของเรา

Metrics for models starting GPT-5 are estimations

เนื่องจากการบริโภคไฟฟ้าเพิ่มขึ้นพร้อมกับขนาดของคลัสเตอร์ การรันการฝึกอบรมปีหน้าจะต้องใช้พลังงานกว่า 1GW ขึ้นไป ปีหลังจากนั้น 10GW หรือมากกว่า โดยไม่มีสัญญาณใด ๆ ที่บ่งชี้ถึงการขยายตัวนี้ลดลง คาดว่าศูนย์ข้อมูลจะมีการบริโภคประมาณ 4.5% ของผลิตภัณฑ์โลกโดย 2030. กริดไฟฟ้าที่มีอยู่,กำลังต่อสู้กับความต้องการของโมเดลปัจจุบันแล้วไม่สามารถสร้างพลังงานเพียงพอสำหรับคลัสเตอร์ในอนาคต นี้เป็นคำถามที่สำคัญ: พลังงานนี้จะมาจากที่ไหน? บิ๊กเทคกำลังนำเส้นทางสองทาง

ในระยะยาวทางออกเดียวที่เป็นไปได้คือสําหรับผู้ปรารถนา ASI ในการผลิตไฟฟ้าของตนเอง ด้วยความมุ่งมั่นด้านสภาพภูมิอากาศพลังงานนี้จะต้องมาจากแหล่งพลังงานหมุนเวียน พลังงานนิวเคลียร์โดดเด่นเป็นทางออกหลัก อเมซอน ซื้อเมื่อเร็วๆ นี้ศูนย์ข้อมูลที่มีพลังงานจากโรงไฟฟ้านิวเคลียร์มูลค่า 650 ล้านเหรียญสำหรับ Microsoftได้ว่าจ้างหัวหน้าเทคโนโลยีนิวเคลียร์และฟื้นฟูโรงไฟฟ้า Three Mile Island ที่มีความสำคัญในอดีต. Google มี ได้รับการได้มา หลายตัวของเครื่องกำเนิดพลังงานนิวเคลียร์ขนาดเล็ก จาก Kairos Power ของแคลิฟอร์เนีย Sam Altman จาก OpenAI ได้สนับสนุนสตาร์ทอัพด้านพลังงานอย่าง เฮลิออน, ExowattและOklo.

Microsoft กําลังเปิดโรงงานนิวเคลียร์ Three Mile Island อีกครั้ง (ภาพต้นฉบับ)

ในขณะที่เมล็ดพันธุ์ของพลังงานนิวเคลียร์กําลังถูกหว่านในขณะนี้ผลไม้ (หรือพลังงาน) จะใช้เวลาหลายปีในการแบกรับ แล้วความต้องการพลังงานสําหรับการสร้างโมเดลทันทีล่ะ? โซลูชันชั่วคราวเกี่ยวข้องกับการฝึกอบรมแบบกระจายในศูนย์ข้อมูลหลายแห่ง แทนที่จะมุ่งเน้นความต้องการพลังงานจํานวนมากในที่เดียว บริษัท ต่างๆเช่น Microsoft และ Google กําลังกระจายคลัสเตอร์การฝึกอบรมในหลายไซต์

แน่นอนว่าความท้าทายคือการทำให้ระบบกระจายเหล่านี้ทำงานร่วมกันได้อย่างมีประสิทธิภาพ แม้จะใช้ความเร็วของแสง ข้อมูลก็ใช้เวลาประมาณ 43 มิลลิวินาทีในการเดินทางไปกลับจากทางทิศตะวันออกของสหรัฐฯ ไปยังทางทิศตะวันตก - ซึ่งถือเป็นเวลานานในทางคอมพิวเตอร์อีกด้วย นอกจากนี้หากมีชิปเพียงหนึ่งอันที่ล้าหลังไปอย่างน้อย 10% ก็จะทำให้การรันการฝึกอบรมทั้งหมดช้าลงด้วยอัตราเดียวกัน

โซลูชันนี้อยู่ที่การเชื่อมต่อศูนย์ข้อมูลในหลายไซต์ด้วยเครือข่ายไฟเบอร์ออปติกความเร็วสูงและใช้เทคนิคการขนานที่กล่าวถึงก่อนหน้านี้เพื่อซิงโครไนซ์การทํางาน ความขนานของ Tensor ถูกนําไปใช้กับ GPU ภายในแต่ละเซิร์ฟเวอร์ทําให้สามารถทํางานเป็นหน่วยเดียวได้ ความขนานของไปป์ไลน์ที่มีความต้องการเครือข่ายต่ํากว่าถูกนํามาใช้เพื่อเชื่อมโยงเซิร์ฟเวอร์ภายในศูนย์ข้อมูลเดียวกัน สุดท้ายศูนย์ข้อมูลในสถานที่ต่างๆ (เรียกว่า "เกาะ") จะซิงโครไนซ์ข้อมูลเป็นระยะโดยใช้ความขนานของข้อมูล

ก่อนหน้านี้เราได้ระบุว่าการแบ่งงานข้อมูลไม่ได้มีประสิทธิภาพสำหรับ GPU แต่ละตัวเนื่องจากไม่สามารถรองรับโมเดลขนาดใหญ่ได้อิสระ อย่างไรก็ตาม เมื่อเราทำการแบ่งงานแบบเกาะเกี่ยวกับเกาะที่มีหลายพันหน่วยประมวลผล การฝึกอบรมข้อมูลถูกกระจายในแต่ละเกาะ และเกาะเหล่านี้จะทำการซิงโครไนซ์อย่างเป็นระยะห่างในการเชื่อมต่อใยแก้วออพติกที่สัมพันธ์เร็วกว่า (เมื่อเทียบกับ NVLink และ Infiniband)

ศูนย์ข้อมูล

เรามาเปลี่ยนศูนย์รวมใจความสนใจของเราจากการฝึกอบรมและหน่วยประมวลผลกราฟิก (GPU) ไปยังศูนย์ข้อมูลเอง

เมื่อยี่สิบปีที่แล้ว Amazon ได้เปิดตัว Amazon Web Services (AWS) ซึ่งเป็นหนึ่งในธุรกิจที่มีการเปลี่ยนแปลงมากที่สุดในประวัติศาสตร์ และสร้างอุตสาหกรรมใหม่ทั้งหมดที่เรียกว่าการประมวลผลบนระบบคลาวด์ ผู้นําระบบคลาวด์ในปัจจุบัน (Amazon, Microsoft, Google และ Oracle) มีอํานาจเหนือกว่าอย่างสะดวกสบาย โดยสร้างรายได้รวมต่อปีเกือบ 300 พันล้านดอลลาร์โดยมีอัตรากําไรขั้นต้น 30-40% ตอนนี้การเกิดขึ้นของ AI ได้สร้างโอกาสใหม่ ๆ ในตลาดที่ยังคงมีอํานาจเป็นส่วนใหญ่มานานหลายปี

ความต้องการทางกายภาพ ความซับซ้อนทางเทคนิค และเศรษฐศาสตร์ของศูนย์ข้อมูล AI ที่ใช้ GPU มีความแตกต่างอย่างมากจากเครื่องกลางทั่วไป

เราได้พูดคุยกันก่อนหน้านี้ว่า GPU ที่หิวพลังงานเป็นอย่างไร สิ่งนี้ทําให้ศูนย์ข้อมูล AI มีความหนาแน่นของพลังงานมากขึ้นและทําให้เกิดความร้อนมากขึ้น ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมใช้พัดลมขนาดยักษ์ (การระบายความร้อนด้วยอากาศ) เพื่อกระจายความร้อน แต่วิธีการนี้ไม่เพียงพอหรือมีศักยภาพทางการเงินสําหรับสิ่งอํานวยความสะดวก AI ศูนย์ข้อมูล AI กําลังใช้ระบบระบายความร้อนด้วยของเหลวที่บล็อกน้ํายึดติดกับ GPU และส่วนประกอบร้อนอื่น ๆ โดยตรงเพื่อกระจายความร้อนได้อย่างมีประสิทธิภาพและเงียบกว่า (B200 GPU มาพร้อมกับสถาปัตยกรรมในตัว) การสนับสนุนระบบระบายความร้อนด้วยของเหลวจําเป็นต้องเพิ่มหอทําความเย็นขนาดใหญ่สิ่งอํานวยความสะดวกระบบน้ําแบบรวมศูนย์และท่อเพื่อขนส่งน้ําไปและกลับจาก GPU ทั้งหมดซึ่งเป็นการปรับเปลี่ยนพื้นฐานในโครงสร้างพื้นฐานของศูนย์ข้อมูล

นอกจากการบริโภคพลังงานสูงสุดแล้ว ศูนย์ข้อมูล AI มีความต้องการในการโหลดที่แตกต่าง ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมรักษาการบริโภคพลังงานที่สามารถทำนายได้ AI มีแบบแบรนด์ในการใช้พลังงานของโหลดที่หลากหลายมากขึ้น ความผันผวนนี้เกิดขึ้นเพราะ GPU ทำการสลับโลกอย่างสม่ำเสมอระหว่างการทำงานที่ 100% และการลดลงเกือบหยุดเมื่อการฝึกอบรมถึงจุดสำคัญ ที่นั่นน้ำหนักจะถูกเก็บไว้ที่หน่วยความจำหรือเช่นเดียวกับที่เราเห็นก่อนหน้านี้ ถูกปรับปรุงกับเกาะอื่น ๆ ศูนย์ข้อมูล AI ต้องการโครงสร้างพลังงานที่เชี่ยวชาญเพื่อจัดการกับความผันผวนของโหลดเหล่านี้

การสร้างคลัสเตอร์ GPU นั้นยากกว่าการสร้างคลาวด์คอมพิวเตอร์ทั่วไปมาก GPU ต้องพูดคุยกันอย่างรวดเร็ว เพื่อให้สิ่งนี้เกิดขึ้นพวกเขาจะต้องบรรจุไว้ใกล้กันมาก สิ่งอํานวยความสะดวก AI ทั่วไปต้องการสายเคเบิลพิเศษมากกว่า 200,000 สายที่เรียกว่าการเชื่อมต่อ InfiniBand สายเคเบิลเหล่านี้ช่วยให้ GPU สื่อสารได้ หากสายเคเบิลเพียงเส้นเดียวหยุดทํางานระบบทั้งหมดจะปิดตัวลง กระบวนการฝึกอบรมไม่สามารถดําเนินต่อไปได้จนกว่าสายเคเบิลนั้นจะได้รับการแก้ไข

ข้อกําหนดด้านโครงสร้างพื้นฐานเหล่านี้ทําให้แทบจะเป็นไปไม่ได้เลยที่จะปรับปรุงศูนย์ข้อมูลแบบดั้งเดิมด้วย GPU ประสิทธิภาพสูงเพื่อให้พร้อมใช้งาน AI การอัพเกรดดังกล่าวจะต้องมีการยกเครื่องโครงสร้างเกือบสมบูรณ์ บริษัทต่างๆ กําลังสร้างศูนย์ข้อมูลใหม่ที่ออกแบบมาโดยเฉพาะสําหรับ AI ตั้งแต่ต้น โดยองค์กรต่างๆ กําลังดําเนินการในระดับที่แตกต่างกัน

บริษัทเทคโนโลยีชั้นนํากําลังแข่งกันสร้างศูนย์ข้อมูล AI ของตนเอง Meta กําลังลงทุนอย่างมากในสิ่งอํานวยความสะดวกเพื่อการพัฒนา AI ของตัวเองโดยถือว่าเป็นการลงทุนโดยตรงเนื่องจากไม่มีบริการคลาวด์ Microsoft กําลังสร้างศูนย์ขนาดใหญ่ในทํานองเดียวกันเพื่อขับเคลื่อนทั้งโครงการ AI ของตัวเองและให้บริการลูกค้าหลักเช่น OpenAI ออราเคิลยังได้เข้าสู่พื้นที่นี้อย่างจริงจังโดยรักษาความปลอดภัย OpenAI ในฐานะลูกค้าที่มีชื่อเสียง Amazon ยังคงขยายโครงสร้างพื้นฐานอย่างต่อเนื่องโดยเฉพาะอย่างยิ่งเพื่อสนับสนุน บริษัท AI ที่เกิดขึ้นใหม่เช่น Anthropic xAI ของ Elon Musk ไม่ต้องการพึ่งพา บริษัท อื่นเลือกที่จะสร้างคลัสเตอร์ GPU 100,000 ของตัวเอง

ภายในศูนย์ข้อมูล GPU 100,000 H100 ของ xAI (แหล่งที่มา)

พร้อมกับผู้ครองตำแหน่งที่เป็นปัจจุบัน “neoclouds” กำลังเกิดขึ้น - ผู้ให้บริการคลาวด์ที่เชี่ยวชาญเฉพาะเรื่องในการคำนวณ GPU สำหรับหน้าที่การทำงานทางด้าน AI พวกเหล่านี้หารือกันเป็นสองหมวดหมู่ที่แตกต่างกันตามขนาด

โฮสต์คลาวด์ขนาดใหญ่รวมถึง CoreWeave, ครูโซ, และ LLama Labsใช้งานคลัสเตอร์ GPU มากกว่า 2,000 ตัว พวกเขาสร้างความแตกต่างจากบริการคลาวด์แบบดั้งเดิมในสองวิธี: นําเสนอโซลูชันโครงสร้างพื้นฐานที่กําหนดเองแทนที่จะเป็นแพ็คเกจมาตรฐานและต้องใช้ภาระผูกพันระยะยาวกับลูกค้าแทนการจัดการแบบจ่ายต่อการใช้งาน

แบบจำลองธุรกิจของพวกเขาใช้สัญญายาวนานเหล่านี้และความสามารถในการชำระหนี้ของลูกค้าเพื่อรับการจัดการเงินสำหรับโครงสร้างพื้นฐาน รายได้เกิดจากอัตราพรีเมียมที่เรียกเก็บสำหรับบริการที่เชี่ยวชาญ และกำไรจากการแบ่งแยกระหว่างต้นทุนการจัดการเงินที่ต่ำกับการชำระเงินของลูกค้า

นี่คือวิธีที่ระบบการจัดการแบบนี้ทำงานโดยปกติ: ผู้ให้บริการเนโอคลาวด์รับสัญญา 3 ปีกับ AI startup ที่มีทุนเงินมาก 10,000 H100 GPUs ในราคา 40 ล้านดอลลาร์ต่อเดือน โดยใช้การทำรายได้ที่รับประกันนี้ 1.44 พันล้านดอลลาร์ ผู้ให้บริการจะได้รับเงินทุนเงินฝากที่เป็นที่รับรองจากธนาคาร (ดอกเบี้ย 6%) เพื่อซื้อและติดตั้งโครงสร้างพื้นฐานมูลค่า 700 ล้านดอลลาร์ รายได้ต่อเดือน 40 ล้านดอลลาร์ครอบคลุมค่าใช้จ่ายในการดำเนินงาน 10 ล้านดอลลาร์และการชำระเงินกู้ยืม 20 ล้านดอลลาร์ ทำให้ได้รายได้สุทธิต่อเดือน 10 ล้านดอลลาร์ในขณะที่ startup ได้รับพลังการคำนวณที่กำหนดแบบกำหนดเองแบบที่พิเศษ

โมเดลนี้ต้องการการเลือกลูกค้าที่ระมัดระวังอย่างยิ่ง ผู้ให้บริการโดยทั่วไปมองหา บริษัทที่มีเงินสดสำรองมากหรือมีการสนับสนุนทุนอันแข็งแกร่ง - โดยทั่วไปมีการประเมินมูลค่า 500 ล้านเหรียญสหรัฐหรือมากกว่า

เมฆเน็ตที่เล็กน้อยนี้ให้สร้างกลุ่ม GPU ที่มีขนาดไม่เกิน 2,000 เครื่องและเป็นเป้าหมายสำหรับกลุ่มตลาด AI ขนาดเล็กและขนาดกลาง - ระดับธุรกิจเริ่มต้นขนาดเล็กและกลาง บริษัทเหล่านี้จะฝึกฝนโมเดลที่เล็กกว่า (ไม่เกิน 70 พันล้านพารามิเตอร์) หรือปรับแต่งโมเดลโอเพ่นซอร์ส (ปรับแต่งเป็นกระบวนการปรับแต่งโมเดลพื้นฐานให้เข้ากับกรณีการใช้งานที่เฉพาะเจาะจง) ทั้งสองข้อมูลที่ต้องการความสามารถในการคำนวณที่เหมาะสมแต่มีระยะเวลาสั้น

ผู้ให้บริการเหล่านี้มีการให้บริการคอมพิวเตอร์ตามคำสั่งพร้อมอัตราค่าบริการรายชั่วโมงสำหรับการเข้าถึงคลัสเตอร์โดยไม่มีการหยุดพักนาน. แม้ว่าราคานี้จะสูงกว่าสัญญาในระยะยาว แต่มันช่วยให้ธุรกิจรุ่นเริ่มต้นสามารถทดลองโดยไม่ต้องยึดติดกับข้อตกลงที่มีมูลค่าหลายล้านดอลลาร์

สุดท้ายแล้ว นอกจากผู้ให้บริการคลาวด์และผู้ให้บริการเมฆรุ่นใหม่ เรายังมีผู้แทนคนกลางในพื้นที่โครงสร้างพื้นฐาน AI: แพลตฟอร์มและผู้รวมรวม ผู้แทนนี้ไม่ครอบครองโครงสร้าง GPU แต่เชื่อมต่อเจ้าของทรัพยากรคำนวณกับผู้ที่ต้องการเขาใช้

ผู้ให้บริการพื้นที่เช่น HydraHost และ Fluidstackบริการเป็น Shopify ของการคำนวณ GPU ทุกอย่างเช่น Shopify ช่วยให้ผู้ขายสามารถเริ่มต้นร้านค้าออนไลน์โดยไม่ต้องสร้างโครงสร้างการค้าออนไลน์เหล่านี้ช่วยให้ผู้ดำเนินศูนย์ข้อมูลและเจ้าของ GPU สามารถให้บริการคำนวณโดยไม่ต้องพัฒนาอินเตอร์เฟซลูกค้าของตนเองพวกเขาให้บริการแพคเกจเทคนิคเต็มรูปแบบสำหรับการดำเนินธุรกิจคำนวณ GPU รวมถึงเครื่องมือการจัดการโครงสร้างระบบจัดจำหน่ายลูกค้าและโซลูชันการเรียกเก็บเงิน

Marketplace aggregators like Vast.aifunction ในโลก GPU เหมืองแร่ที่เป็นเสมือนเป็น Amazon พวกเขาสร้างตลาดที่รวมการเสนอขายความสามารถในการคำนวณที่หลากหลายจากผู้ให้บริการต่าง ๆ - ตั้งแต่การ์ด RTX รุ่นใช้งานทั่วไปไปจนถึง GPU H100 รุ่นมืออาชีพ เจ้าของ GPU รายการทรัพยากรของพวกเขาพร้อมกับเมตริกประสิทธิภาพและคะแนนความเชื่อถืออย่างละเอียด ส่วนลูกค้าซื้อเวลาคำนวณผ่านแพลตฟอร์มเซลฟ์เซอร์วิส

การอ่านความหมาย

จนถึงตอนนี้การอภิปรายของเรามุ่งเน้นไปที่รูปแบบการฝึกอบรม (หรือการปรับแต่ง) อย่างไรก็ตาม เมื่อผ่านการฝึกอบรมแล้ว จะต้องปรับใช้โมเดลเพื่อให้บริการแก่ผู้ใช้ปลายทาง ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน ทุกครั้งที่คุณแชทกับ ChatGPT คุณกําลังใช้ GPU ที่เรียกใช้ปริมาณงานการอนุมานที่ป้อนข้อมูลของคุณและสร้างการตอบสนองของโมเดล ลองกลับไปพูดถึงรูปปั้นหินอ่อนสักนาที

นี่ยังเป็นเดวิด—ไม่ใช่ต้นฉบับของไมเคิลแองเจโล แต่เป็นปูนปลาสเตอร์ที่พระราชินีวิกตอเรียมอบหมายในปี 1857 สําหรับพิพิธภัณฑ์วิคตอเรียแอนด์อัลเบิร์ตในลอนดอน ในขณะที่ Michelangelo ใช้เวลาสามปีในการบิ่นหินอ่อนอย่างระมัดระวังเพื่อสร้างต้นฉบับในฟลอเรนซ์การหล่อปูนปลาสเตอร์นี้ทําจากแม่พิมพ์โดยตรงของรูปปั้นซึ่งทําซ้ําทุกโค้งมุมและรายละเอียดที่ Michelangelo สร้างขึ้นอย่างสมบูรณ์แบบ งานสร้างสรรค์ที่เข้มข้นเกิดขึ้นครั้งเดียว หลังจากนั้นก็กลายเป็นเรื่องของการจําลองคุณสมบัติเหล่านี้อย่างซื่อสัตย์ วันนี้แบบจําลองของเดวิดปรากฏทุกที่ตั้งแต่ห้องโถงพิพิธภัณฑ์ไปจนถึงลานคาสิโนลาสเวกัส

นี่คือวิธีการแปลงความคิดให้เป็นสิ่งที่เป็นไปได้ใน AI การฝึกโมเดลภาษาขนาดใหญ่เหมือนกระบวนการสร้างรูปปั้นของไมเคิลแองเจโลราวกับกระบวนการที่ใช้เวลานานและใช้ทรัพยากรมาก โมเดลจะเรียนรู้รูปร่างที่ถูกต้องของภาษาผ่านการปรับเปลี่ยนเล็ก ๆ น้อย ๆ ล้านครั้ง แต่การใช้โมเดลที่ฝึกเรียนแล้ว (การแปลงความคิด) เหมือนการสร้างสำเนา การสนทนากับ ChatGPT คุณไม่ได้สอนภาษาให้เรียนรู้ตั้งแต่ต้นแต่ใช้สำเนาของโมเดลที่พารามิเตอร์ (เช่นเส้นโค้งและมุมของเดวิด) ถูกปรับปรุงแล้ว

ปริมาณงานการอนุมานแตกต่างจากการฝึกอบรมโดยพื้นฐาน ในขณะที่การฝึกอบรมต้องใช้คลัสเตอร์ขนาดใหญ่และหนาแน่นของ GPU ล่าสุดเช่น H100s เพื่อจัดการกับการคํานวณที่เข้มข้นการอนุมานสามารถทํางานบนเซิร์ฟเวอร์ GPU เดียวโดยใช้ฮาร์ดแวร์รุ่นเก่าเช่น A100s หรือแม้แต่การ์ดระดับผู้บริโภคทําให้คุ้มค่ากว่ามาก ดังที่กล่าวไว้ปริมาณงานการอนุมานมีความต้องการเฉพาะของตนเอง:

  • ความครอบคลุมทางภูมิศาสตร์ที่กว้างขวาง: โมเดลจําเป็นต้องปรับใช้ในศูนย์ข้อมูลหลายแห่งทั่วโลกเพื่อให้แน่ใจว่าผู้ใช้ในสิงคโปร์จะได้รับการตอบสนองอย่างรวดเร็วเช่นเดียวกับผู้ใช้ในซานฟรานซิสโก
  • High uptime: ไม่เหมือนการฝึกอบรมที่สามารถหยุดและดำเนินการต่อได้ การใช้ทำนายจำเป็นต้องพร้อมใช้งานตลอด 24/7 เนื่องจากผู้ใช้คาดหวังการตอบสนองทันทีตลอดเวลา
  • ความไม่จำเป็น: ต้องมีเซิร์ฟเวอร์หลายเครื่องที่พร้อมรับมือคำขอในกรณีที่บางเครื่องล้มเหลวหรือเกินพลัง

คุณลักษณะเหล่านี้ทําให้ปริมาณงานการอนุมานเหมาะสําหรับรูปแบบการกําหนดราคาเฉพาะจุด ภายใต้การกําหนดราคาแบบสปอตทรัพยากร GPU มีส่วนลดมากมายซึ่งมักจะต่ํากว่าอัตราตามความต้องการ 30-50% ด้วยความเข้าใจว่าบริการอาจหยุดชั่วคราวเมื่อลูกค้าที่มีลําดับความสําคัญสูงกว่าต้องการทรัพยากร รุ่นนี้เหมาะกับการอนุมานเนื่องจากการปรับใช้ที่ซ้ําซ้อนช่วยให้ปริมาณงานเปลี่ยนไปเป็น GPU ที่พร้อมใช้งานได้อย่างรวดเร็วหากถูกขัดจังหวะ

ในที่สุดก็มาถึงจุดนี้ เมื่อเรามีการใช้งาน GPUs และ AI cloud computing อย่างแท้จริง ตอนนี้เรามีโอกาสเริ่มสำรวจว่าคริปโตสกุลจะเข้ามาเล่นบทบาทในสิ่งเหล่านี้อย่างไร มาเริ่มกันเถอะ

ที่สิ่งที่เกี่ยวข้องกับคริปโต

โครงการและรายงานบ่อยครั้งอ้างอิงถึงการสังเกตของ Peter Thiel ที่ว่า "AI กำลังกลายเป็นศูนย์กลาง ส่วนคริปโตกำลังกลายเป็นศูนย์กลาง" เมื่อพูดถึงบทบาทของคริปโตในการฝึก AI ในขณะที่คำกล่าวของ Thiel เป็นความจริงที่ไม่สามารถเสี่ยงทายได้ แต่เราเพิ่งเห็นหลักฐานที่เพียงพอเกี่ยวกับความได้เปรียบของ Big Tech ในการฝึก AI ที่มักถูกนำมาใช้ผิดให้เสียงเสียงว่าคริปโตและคอมพิวเตอร์ที่กระจายเป็นสิ่งที่เสนอตัวเลือกหลักในการตอบสนองต่ออิทธิพลของ Big Tech

คำอ้างเหตุเช่นนี้กล่าวถึงความเกินความจริงเกี่ยวกับความเป็นไปได้ของสกุลเงินดิจิตอลในการเปลี่ยนแปลงสื่อสังคม เกม และอุตสาหกรรมอื่น ๆ ได้ยินมากมายแล้ว ไม่เพียงเป็นการเสียเวลาแต่ยังรู้สึกไม่เป็นทางการ และจริงไปตามที่ฉันจะอธิบายในไม่ช้าก็ยังไม่เป็นไปได้ - อย่างน้อยในระยะสั้น

ฉันจะใช้แนวทางในทางปฏิบัติมากขึ้น ฉันจะสมมติว่าสตาร์ทอัพ AI ที่กําลังมองหาการประมวลผลไม่สนใจหลักการของการกระจายอํานาจหรือการต่อต้านทางอุดมการณ์กับ Big Tech แต่พวกเขามีปัญหา - พวกเขาต้องการเข้าถึงการประมวลผล GPU ที่เชื่อถือได้ด้วยต้นทุนที่ต่ําที่สุด หากโครงการ crypto สามารถให้ทางออกที่ดีกว่าสําหรับปัญหานี้มากกว่าทางเลือกที่ไม่ใช่ crypto พวกเขาจะใช้มัน

ด้วยเหตุนี้เรามาเข้าใจก่อนว่าโครงการที่ใช้เทคโนโลยีเช่นนี้แข่งขันกับใคร ก่อนหน้านี้เราได้พูดถึงหมวดหมู่ต่าง ๆ ของผู้ให้บริการคลาวด์ AI—Big Tech และ hyperscalers, big neoclouds, small neoclouds, ผู้ให้บริการแพลตฟอร์มและตลาด

สารตั้งต้นของการคำนึงถึงการคำนวณแบบกระจาย (เช่นโครงการ DePIN ทั้งหมด) คือตลาดคำนวณปัจจุบันทำงานได้ไม่เป็นประสบการณ์เต็มที่ ความต้องการ GPU ยังคงสูงอย่างมากในขณะที่มีการจัดหาที่แยกจากกันและไม่ได้ใช้งานในศูนย์ข้อมูลทั่วโลกและบ้านส่วนตัว โครงการส่วนใหญ่ในกลุ่มนี้แข่งขันโดยตรงกับตลาดโดยรวบรวมการจัดหาที่แพร่กระจายนี้เพื่อลดความไม่ได้เป็นประสิทธิภาพ

With that established, let’s look at how these projects (and compute marketplaces in general) can aid with different AI workloads—training, fine-tuning and inference.

การฝึกอบรม

อันดับแรก ไม่ อาศิตจะไม่ถูกฝึกฝนบนเครือข่ายที่กระจายอยู่ทั่วโลกของหน่วยประมวลผลกราฟิกส่วนตัว อย่างน้อยก็ไม่ในเส้นทางปัจจุบันของ AI นี่คือเหตุผล

เราได้พูดถึงความใหญ่ของกลุ่มโมเดลพื้นฐานที่กำลังเพิ่มขึ้นเรื่อย ๆ คุณต้องใช้ GPU ที่มีประสิทธิภาพสูงสุด 100,000 ตัวในโลกเพื่อเริ่มการแข่งขัน จำนวนนี้เพิ่มขึ้นเรื่อย ๆ ในทุก ๆ ปี โดยภายในปี 2026 คาดว่าต้นทุนของการฝึกอาจเกิน 100 พันล้านดอลลาร์ ต้องใช้ GPU หรือมากกว่าหนึ่งล้านตัวอาจจะจำเป็น

บริษัทเทคโนโลยีใหญ่ที่ได้รับการสนับสนุนจากเนโอคลาวด์ระดับใหญ่และมีพันธมิตรของ Nvidia ที่ตรงไปตรงมาเท่านั้นที่สามารถรวมกลุ่มคอมพิวเตอร์ขนาดใหญ่นี้ได้ โดยจำไว้ว่าเรากำลังแข่งขันสำหรับ ASI และผู้เข้าร่วมทั้งหมดมีแรงจูงใจและทุนทรัพย์มากเพียงพอ หากมีการผลิต GPU มากเพียงพอ (ซึ่งไม่มี) พวกเขาจะเป็นผู้แรกที่ได้รับการจัดหาใช้งาน

แม้ว่าโครงการ crypto จะรวบรวมการประมวลผลที่จําเป็น แต่อุปสรรคพื้นฐานสองประการก็ป้องกันการพัฒนา ASI แบบกระจายอํานาจ:

ประการแรก GPU ยังคงต้องเชื่อมต่อในคลัสเตอร์ขนาดใหญ่เพื่อให้ทํางานได้อย่างมีประสิทธิภาพ แม้ว่ากลุ่มเหล่านี้จะถูกแบ่งระหว่างเกาะในเมือง พวกเขาจะต้องเชื่อมต่อกันด้วยสายไฟเบอร์ออปติกเฉพาะ สิ่งเหล่านี้ไม่สามารถทําได้ในสภาพแวดล้อมแบบกระจายอํานาจ นอกเหนือจากการจัดซื้อ GPU แล้ว การจัดตั้งศูนย์ข้อมูลที่พร้อมสําหรับ AI ยังต้องการการวางแผนอย่างพิถีพิถัน ซึ่งโดยปกติจะเป็นกระบวนการหนึ่งถึงสองปี (xAI ทําได้ในเวลาเพียง 122 วัน แต่ไม่น่าเป็นไปได้ที่ Elon จะเปิดตัวโทเค็นในเร็ว ๆ นี้)

เพียงแค่สร้างศูนย์ข้อมูล AI ก็ไม่เพียงพอที่จะเกิด AI ที่มีความฉลาดเหนือมนุษย์ เช่น ผู้ก่อตั้ง Anthropic Dario Amodeirecently explainedการปรับขนาดใน AI นั้นคล้ายคลึงกับปฏิกิริยาเคมี เช่นเดียวกับปฏิกิริยาทางเคมีที่ต้องใช้รีเอเจนต์หลายตัวในสัดส่วนที่แม่นยําเพื่อดําเนินการต่อการปรับขนาด AI ที่ประสบความสําเร็จนั้นขึ้นอยู่กับส่วนผสมสําคัญสามอย่างที่เติบโตร่วมกัน: เครือข่ายที่ใหญ่ขึ้นเวลาในการฝึกอบรมที่ยาวนานขึ้นและชุดข้อมูลที่ใหญ่ขึ้น หากคุณปรับขนาดองค์ประกอบหนึ่งโดยไม่มีองค์ประกอบอื่นกระบวนการจะหยุดทํางาน

แม้ว่าเราจะจัดการเพื่อสะสมทั้งการประมวลผลและทําให้คลัสเตอร์ทํางานร่วมกัน แต่เราก็ยังต้องการข้อมูลคุณภาพสูงหลายเทราไบต์เพื่อให้โมเดลที่ผ่านการฝึกอบรมนั้นดี หากไม่มีแหล่งข้อมูลที่เป็นกรรมสิทธิ์ของ Big Tech เงินทุนในการเขียนข้อตกลงมูลค่าหลายล้านดอลลาร์กับฟอรัมออนไลน์และสื่อหรือรูปแบบที่มีอยู่เพื่อสร้างข้อมูลสังเคราะห์การได้รับข้อมูลการฝึกอบรมที่เพียงพอเป็นไปไม่ได้

มีการคาดเดาในช่วงปลายว่ากฎหมายการปรับขนาดอาจสูงโดย LLM อาจกระทบเพดานประสิทธิภาพ บางคนตีความว่านี่เป็นการเปิดสําหรับการพัฒนา AI แบบกระจายอํานาจ อย่างไรก็ตาม สิ่งนี้มองข้ามปัจจัยสําคัญ—ความเข้มข้นของพรสวรรค์ บริษัท Big Tech และห้องปฏิบัติการ AI ในปัจจุบันเป็นที่ตั้งของนักวิจัยชั้นนําของโลก เส้นทางทางเลือกที่ก้าวหน้าไปยัง AGI มีแนวโน้มที่จะโผล่ออกมาจากศูนย์เหล่านี้ เมื่อพิจารณาถึงภูมิทัศน์การแข่งขันการค้นพบดังกล่าวจะยังคงได้รับการปกป้องอย่างใกล้ชิด

พิจารณาทุกข้อเท็จจริงเหล่านี้ ฉันมั่นใจ 99.99% ว่าการฝึกอบรม ASI หรือแม้กระทั่งโมเดลที่ทรงพลังที่สุดในโลก จะไม่ได้รับการฝึกอบรมบนโครงการคำนวณแบบกระจาย ในกรณีนั้น โมเดลอะไรบ้างที่เงินดิจิทัลจริงจังสามารถช่วยฝึกอบรมได้บ้าง

เพื่อให้โมเดลสามารถถูกฝึกฝนระหว่างกลุ่ม GPU ที่แตกต่างกันทางภูมิภาค เราจำเป็นต้องใช้การกระจายข้อมูลระหว่างพวกเขา (จำได้ว่าการกระจายข้อมูลคือวิธีที่เกี่ยวกับเกาะต่าง ๆ ของ GPU ที่ทำงานกับชุดข้อมูลการฝึกฝนที่แตกต่างกัน จะตั้งค่ากับกัน) โมเดลที่ถูกฝึกฝนมากขึ้นจะต้องมีปริมาณข้อมูลที่ต้องแลกเปลี่ยนกันมากขึ้น เช่นเดียวกับที่เราได้พูดถึง สำหรับโมเดลอันยิ่งใหญ่ที่มีพารามิเตอร์เกินหนึ่งล้านล้าน การแบนด์วิดท์ที่ต้องการจะมากพอที่จะต้องใช้การเชื่อมต่อไฟเบอร์ออปติกที่ไว้วางการใช้งาน

อย่างไรก็ตามสำหรับโมเดลขนาดเล็ก ความต้องการแบนด์วิดท์จะลดลงตรงไปตรงมา ความก้าวหน้าล่าสุดในอัลกอริทึมการฝึกอบรมที่ใช้การสื่อสารต่ำ โดยเฉพาะในการฝึกอบรมแบบเลื่อนการประสานเวลาได้เป็นโอกาสที่มีความมั่นใจสำหรับการฝึกอบรมโมเดลขนาดเล็กถึงกลางขนาดในลักษณะที่กระจายอย่างแบ่งเบา ทีมงานสองทีมเป็นผู้นำในการพยายามทดลองเหล่านี้

Nous Researchเป็นบริษัทเร่งความเร็ว AI และเป็นผู้เล่นใหญ่ในการพัฒนา AI โอเพนซอร์ส พวกเขาเป็นที่รู้จักดีสำหรับชุดโมเดลภาษา Hermes และโครงการนวัตกรรมเช่น World Sim ในช่วงต้นปีนี้พวกเขาให้บริการซับเน็ต LLM-ranking BitTensor เป็นเวลาไม่กี่เดือน พวกเขาได้ลอยน้ำเข้าสู่การคำนวณแบบกระจายโดยการเปิดเผยDisTrOโครงการ Distributed Training Over the Internet ที่พวกเขาสามารถฝึกฝนโมเดล Llama-2 ที่มีพารามิเตอร์ 1.2 พันล้านได้อย่างประสบความสำเร็จโดยลดความต้องการแบนด์วิดท์ระหว่าง GPU ลงถึง 857 เท่า

รายงาน DisTrO โดย Nous Research

Prime Intellectซึ่งเป็นสตาร์ทอัพที่พัฒนาโครงสร้างพื้นฐานสําหรับ AI แบบกระจายอํานาจในวงกว้าง โดยมีเป้าหมายเพื่อรวบรวมทรัพยากรการประมวลผลทั่วโลกและเปิดใช้งานการฝึกอบรมร่วมกันของโมเดลที่ล้ําสมัยผ่านระบบแบบกระจาย ของพวกเขา โครงสร้าง OpenDiLoCo (การนำมาใช้ของ DeepMind วิธีการกระจายการสื่อสารที่ต่ำ) ฝึกอบรมสำเร็จโมเดลพารามิเตอร์หนึ่งพันล้านตัวข้างทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวน 90-95% การใช้โปรแกรม

แต่การฝึกอบรมแบบกระจายทำงานอย่างไร?

ความขนานของข้อมูลแบบดั้งเดิมต้องใช้ GPU ในการแบ่งปันและเฉลี่ยน้ําหนักหลังจากทุกขั้นตอนการฝึกอบรมซึ่งเป็นไปไม่ได้ผ่านการเชื่อมต่ออินเทอร์เน็ต แต่โครงการเหล่านี้ปล่อยให้แต่ละ "เกาะ" ของ GPU ฝึกอย่างอิสระเป็นเวลาหลายร้อยขั้นตอนก่อนที่จะซิงโครไนซ์ ลองนึกถึงทีมวิจัยอิสระที่ทํางานในโครงการเดียวกัน: แทนที่จะตรวจสอบซึ่งกันและกันอย่างต่อเนื่องพวกเขาก้าวหน้าอย่างมีนัยสําคัญอย่างอิสระก่อนที่จะแบ่งปันสิ่งที่ค้นพบ

DisTrO และ OpenDiLoCo ซิงค์เฉพาะทุก 500 ขั้นตอนเท่านั้น โดยใช้วิธีการทำเพิ่มเติมสองตัวเลือก:

  • เครื่องมือเพิ่มประสิทธิภาพ "ภายใน" ที่จัดการการอัปเดตในเครื่องของ GPU แต่ละตัว เช่น ทีมทําการค้นพบในท้องถิ่น
  • เครื่องมือเพิ่มประสิทธิภาพ "ด้านนอก" ที่จัดการการซิงค์เป็นระยะระหว่าง GPU โดยทําหน้าที่เป็นผู้ประสานงานที่นําสิ่งที่ค้นพบทั้งหมดมารวมกัน

เมื่อพวกเขาซิงค์กัน ไม่ใช่การแบ่งปันน้ำหนักทั้งหมด พวกเขาแบ่งปัน "แกรดิเอนแบบเทียบเท่า" - มีความแตกต่างในน้ำหนักปัจจุบันของพวกเขาและน้ำหนักจากการซิงค์ครั้งล่าสุด นี่เป็นวิธีที่มีประสิทธิภาพอย่างน่าทึ่ง เหมือนการแบ่งปันเฉพาะสิ่งที่เปลี่ยนแปลงในเอกสาร ไม่ใช่การส่งเอกสารทั้งหมดทุกครั้ง

INTELLECT-1การนำไปใช้จริงของ OpenDiLoCo โดย Prime Intellect เป็นการผลักดันแนวคิดนี้ไปอีกขั้นตอนหนึ่งโดยการฝึกฝนโมเดล 10B พารามิเตอร์ - ความพยายามในการฝึกฝนแบบกระจายที่ใหญ่ที่สุดจนถึงปัจจุบัน พวกเขาได้เพิ่มการปรับปรุงที่สำคัญเช่น:

  • การบีบอัดข้อมูลที่พวกเขาต้องการแบ่งปัน ทำให้การสื่อสารมีประสิทธิภาพมากขึ้น
  • สร้างระบบสำรองเพื่อให้การฝึกอบรมสามารถดำเนินต่อได้ แม้ว่าบางเครื่องคอมพิวเตอร์จะหยุดทำงาน
  • ทำให้กระบวนการซิงโครไนเซชันเร็วมาก - น้อยกว่าหนึ่งนาที

INTELLECT-1, ซึ่งได้รับการฝึกอบรมโดยกลุ่ม GPU มากกว่า 20 กลุ่มที่กระจายอยู่ทั่วโลก เสร็จลงล่าสุดpretrainingและจะถูกเปิดเผยเต็มรูปแบบในเร็ว ๆ นี้ในรูปแบบโอเพนซอร์ส

แดชบอร์ดการฝึกอบรม INTELLECT-1

ทีมเช่นนี้เช่นแมคโครคอสมอส are using similar algorithms to โมเดลการฝึกอบรมในนิเวศ Bittensor

หากอัลกอริทึมการฝึกองค์กรแบบกระจายเหล่านี้ยังคงดีขึ้นต่อไป อาจสามารถสนับสนุนโมเดลขนาดถึง 100 พันพารามิเตอร์ ด้วยรุ่น GPU รุ่นถัดไป โมเดลขนาดเช่นนี้สามารถเป็นประโยชน์อย่างมากสำหรับกรณีการใช้ที่หลากหลาย:

  1. การวิจัยและทดลองกับสถาปัตยกรรมใหม่ที่ไม่ต้องการการประมวลผลระดับชายแดน
  2. รุ่นทั่วไปขนาดเล็กที่ถูกปรับแต่งให้มีประสิทธิภาพและความเร็วสูงกว่าความฉลาดของข้อมูลต้นฉบับ
  3. โมเดลเฉพาะด้านโดเมน

การปรับจูนอย่างละเอียด

การปรับแต่งอย่างละเอียดเป็นกระบวนการของการใช้โมเดลพื้นฐานที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติจะเป็นโอเพ่นซอร์สโดย Meta, Mistral หรือ Alibaba) และฝึกอบรมเพิ่มเติมเกี่ยวกับชุดข้อมูลเฉพาะเพื่อปรับให้เข้ากับงานหรือโดเมนเฉพาะ สิ่งนี้ต้องการการประมวลผลน้อยกว่าการฝึกอบรมตั้งแต่เริ่มต้นเนื่องจากโมเดลได้เรียนรู้รูปแบบภาษาทั่วไปแล้วและจําเป็นต้องปรับน้ําหนักสําหรับโดเมนใหม่เท่านั้น

คำนวณความต้องการสำหรับการปรับปรุงมาตราสเกลด้วยขนาดโมเดล โดยสมมติว่าการฝึกอบรมบน H100:

  • รุ่นเล็ก (1-7B พารามิเตอร์): เพียง GPU เดียว สามารถทำเสร็จภายใน 12 ชั่วโมง
  • รุ่นขนาดกลาง (7-13B): คลัสเตอร์ GPU 2-4 คลัสเตอร์เสร็จสิ้นภายใน 36 ชั่วโมง
  • โมเดลขนาดใหญ่ (>30B): สูงสุด 8 กลุ่ม GPU, การเสร็จสิ้นภายใน 4 วัน

ด้วยข้อกําหนดเหล่านี้การปรับแต่งอย่างละเอียดไม่ต้องการอัลกอริธึมการฝึกอบรมแบบกระจายที่ซับซ้อนที่กล่าวถึงก่อนหน้านี้ รูปแบบตามความต้องการซึ่งนักพัฒนาเช่าคลัสเตอร์ GPU ในช่วงเวลาสั้น ๆ ที่กระจุกตัวให้การสนับสนุนอย่างเพียงพอ ตลาดการประมวลผลแบบกระจายอํานาจที่มีความพร้อมใช้งานของ GPU ที่แข็งแกร่งอยู่ในตําแหน่งที่เหมาะสมในการจัดการกับปริมาณงานเหล่านี้

การสรุปความ

การอนุมานคือจุดที่ตลาดการประมวลผลแบบกระจายอํานาจมีเส้นทางที่ชัดเจนที่สุดสู่ความเหมาะสมของตลาดผลิตภัณฑ์ น่าแปลกที่นี่เป็นเวิร์กโฟลว์ที่กล่าวถึงน้อยที่สุดในบริบทของการฝึกอบรมแบบกระจายอํานาจ สิ่งนี้เกิดจากสองปัจจัย: การอนุมานขาดการอุทธรณ์ของการฝึกอบรม "แบบจําลองพระเจ้า" ของ GPU 100,000 ครั้งและส่วนหนึ่งเป็นเพราะขั้นตอนปัจจุบันของการปฏิวัติ AI

จนถึงวันนี้การคำนวณส่วนใหญ่จะเป็นการฝึกฝนจริง ๆ การแข่งขันเพื่อ ASI กำลังนำไปสู่การลงทุนรายใหญ่โดยตรงในโครงสร้างพื้นฐานการฝึกฝน อย่างไรก็ตาม สมดุลนี้มักเปลี่ยนไปเมื่อแอปพลิเคชัน AI เปลี่ยนจากการวิจัยเป็นการผลิต สำหรับแบบธุรกิจที่เกี่ยวกับ AI เพื่อให้ยังคงอยู่ได้ต้องมีรายได้จากการอ่านอย่างน้อยต้องมากกว่าต้นทุนของการฝึกฝนและการอ่านรวมกัน ในขณะที่การฝึก GPT-4 เป็นรายจ่ายที่มากมาย นั่นเป็นค่าใช้จ่ายครั้งเดียว ค่าใช้จ่ายในการคำนวณต่อเนื่องและเส้นทางสู่ความสามารถในการทำกำไรของ OpenAI ได้รับการขับเคลื่อนโดยการให้บริการคำขอการอ่านพันล้านให้กับลูกค้าที่ชำระเงิน

ตลาดประมวลผลกระจายอํานาจหรืออื่น ๆ โดยธรรมชาติของการรวม GPU รุ่นต่างๆ (เก่าและใหม่) จากทั่วโลกพบว่าตัวเองอยู่ในตําแหน่งที่ไม่เหมือนใครเพื่อรองรับปริมาณงานการอนุมาน

ตลาดคอมพิวเตอร์ไม่ว่าจะได้รับการแยกตามสถานที่หรือเป็นแบบดั้งเดิม มีความสามารถในการทำงานที่เกี่ยวข้องกับ GPUs ที่หลากหลาย (ทั้งรุ่นปัจจุบันและรุ่นก่อนหน้า) อย่างเหมาะสมทั่วโลก ข้อดีที่แท้จริงของพวกเขาสอดคล้องกับความต้องการในการสร้างองค์ความรู้: การกระจายทางภูมิภาคกว้างขวาง การรองรับที่เสถียรต่อเวลาทำงาน ระบบสำรอง และความเข้ากันได้ของรุ่น GPU ทั้งหมด

แต่ทำไมถึงเลือกใช้คริปโต?

เราได้พูดถึงเวิร์กโฟลว์ต่างๆ การประมวลผลแบบกระจายอํานาจสามารถและไม่สามารถช่วยได้ ตอนนี้เราต้องตอบคําถามสําคัญอีกข้อหนึ่ง: เหตุใดนักพัฒนาจึงเลือกที่จะรักษาความปลอดภัยการประมวลผลจากผู้ให้บริการแบบกระจายอํานาจผ่านผู้ให้บริการแบบรวมศูนย์ โซลูชันแบบกระจายอํานาจมีข้อได้เปรียบที่น่าสนใจอะไรบ้าง

ราคาและช่วง

สกุลเงินคงที่บรรจุผลิตภายใต้การตลาดด้วยการให้ทางเลือกที่ดีกว่าในการโอนเงินข้ามชาติทางด้านเดิม ปัจจัยที่สำคัญคือสกุลเงินคงที่เพียงแค่ถูกกว่าอย่างมาก! อย่างที่เดียวที่สำคัญที่สุดที่ส่งผู้พัฒนา AI เลือกให้บริการคลาวด์คือต้นทุน ในการแข่งขันกับผู้ให้บริการคอมพิวต์แบบกระจายให้สามารถแข่งขันได้อย่างมีประสิทธิภาพจริง ๆ พวกเขาต้องส่งมอบราคาที่ดีกว่าก่อน

ตลาดคอมพิวเตอร์เช่นเดียวกับตลาดทั้งหมดเป็นธุรกิจเอฟเฟกต์เครือข่าย ยิ่งอุปทานของ GPU บนแพลตฟอร์มมากเท่าไหร่สภาพคล่องและความพร้อมใช้งานของลูกค้าก็จะยิ่งมากขึ้นเท่านั้นซึ่งจะดึงดูดความต้องการมากขึ้น เมื่อความต้องการเพิ่มขึ้นสิ่งนี้จูงใจให้เจ้าของ GPU เข้าร่วมเครือข่ายมากขึ้นสร้างวงจรคุณธรรม อุปทานที่เพิ่มขึ้นยังช่วยให้ราคาแข่งขันได้มากขึ้นผ่านการจับคู่ที่ดีขึ้นและลดเวลาว่าง เมื่อลูกค้าสามารถค้นหาการประมวลผลที่ต้องการได้อย่างสม่ําเสมอในอัตราที่น่าดึงดูดพวกเขามีแนวโน้มที่จะสร้างการพึ่งพาทางเทคนิคที่ยั่งยืนบนแพลตฟอร์มซึ่งจะช่วยเสริมสร้างผลกระทบของเครือข่าย

ความเคลื่อนไหวนี้มีความสำคัญอย่างยิ่งในการอินเฟอเรนซ์ ที่ทำให้การกระจายทางภูมิภาคของการจัดหาสามารถเสริมสร้างการเสนอสินค้าได้อย่างแท้จริงโดยการลดความล่าช้าสำหรับผู้ใช้สุดท้าย ตลาดที่เป็นตลาดเปิดทั้งแบบนี้ที่มีมหาศาลจะมีข้อได้เปรียบทางการแข่งขันที่สำคัญ เนื่องจากทั้งผู้ผลิตและลูกค้าจะต้องเผชิญกับค่าใช้จ่ายในการเปลี่ยนแปลงเมื่อพวกเขาได้รวมกับเครื่องมือและกระบวนการทำงานของแพลตฟอร์ม

ผลกระทบเครือข่ายตลาด GPU มู่เล่

ในตลาดที่ผู้ชนะเหนือทุกคนเช่นนี้การบูตเครือข่ายและการเข้าสู่ความเร็วหนีไปเป็นเฟสที่สำคัญที่สุด ที่นี่คริปโตให้โครงการคอมพิวเตอร์ที่กระจายอยู่ด้วยเครื่องมือที่มีประสิทธิภาพมากมายที่คู่แข่งที่เป็นกลางไม่มีเพียงอย่างเดียว: ผลตอบแทนโทเคน

กลไกสามารถตรงไปตรงมา แต่ทรงพลัง โปรโตคอลจะเปิดตัวโทเค็นที่มีตารางรางวัลเงินเฟ้อก่อน ซึ่งอาจแจกจ่ายการจัดสรรเบื้องต้นให้กับผู้มีส่วนร่วมในช่วงต้นผ่าน airdrops การปล่อยโทเค็นเหล่านี้จะเป็นเครื่องมือหลักในการบูตทั้งสองด้านของตลาด

สําหรับผู้ให้บริการ GPU โครงสร้างรางวัลควรได้รับการออกแบบอย่างรอบคอบเพื่อกําหนดพฤติกรรมด้านอุปทาน ผู้ให้บริการจะได้รับโทเค็นตามสัดส่วนของการคํานวณและอัตราการใช้ประโยชน์ที่มีส่วนร่วม แต่ระบบควรไปไกลกว่ารางวัลเชิงเส้นอย่างง่าย โปรโตคอลนี้สามารถใช้ตัวคูณรางวัลแบบไดนามิกเพื่อจัดการกับความไม่สมดุลทางภูมิศาสตร์หรือประเภทฮาร์ดแวร์ ซึ่งคล้ายกับวิธีที่ Uber ใช้การกําหนดราคาที่เพิ่มขึ้นเพื่อจูงใจผู้ขับขี่ในพื้นที่ที่มีความต้องการสูง

ผู้ให้บริการอาจได้รับรางวัล 1.5 เท่าสำหรับการให้บริการคำนวณในพื้นที่ที่ไม่ได้รับการบริการเพียงพอหรือ 2 เท่าสำหรับการให้บริการประเภท GPU ที่ขาดแคลนชั่วคราว การแบ่งระดับรางวัลเพิ่มเติมตามอัตราการใช้งานที่สม่ำเสมอจะส่งเสริมให้ผู้ให้บริการรักษาความพร้อมที่มั่นคงและไม่สลับระหว่างแพลตฟอร์มโดย opportunistic.

ในด้านความต้องการลูกค้าจะได้รับรางวัลโทเค็นซึ่งจะสนับสนุนการใช้งานของพวกเขาอย่างมีประสิทธิภาพ โปรโตคอลอาจเสนอรางวัลที่เพิ่มขึ้นสำหรับการสัญญาณคอมพิวเตอร์ที่ยาวนานเพื่อกระตุ้นผู้ใช้ให้สร้างความขึ้นอยู่กับแพลตฟอร์มทางเทคนิคที่ลึกลงมากขึ้น รางวัลเหล่านี้อาจถูกสร้างเพื่อให้สอดคล้องกับแนวทางยุทธศาสตร์ของแพลตฟอร์มเช่นการจับต้องความต้องการในภูมิภาคที่แน่นอน

อัตราฐานของการคำนวณอาจถูกเก็บไว้ที่ระดับตลาดหรือต่ำกว่าราคาตลาดเล็กน้อย โดยโปรโตคอลที่ใช้oracles zkTLSเพื่อติดตามและจับคู่ราคาของคู่แข่งอย่างต่อเนื่อง รางวัลโทเค็นก็จะทำหน้าที่เป็นชั้นเสริมของการกระตุ้นเพิ่มเติมที่อยู่เหนือระดับราคาฐานที่แข่งขัน โมเดลราคาคู่สองชั้นนี้จะช่วยให้แพลตฟอร์มรักษาความแข่งขันของราคาในขณะเดียวกันก็ใช้สิทธิตัวกระตุ้นโทเค็นในการส่งเสริมพฤติกรรมที่เฉพาะเจาะจงที่เสริมสร้างเครือข่าย

โดยการแจกไอน้ำสิทธิ์ให้กับผู้ให้บริการและลูกค้าทั้งสองฝ่ายจะเริ่มเก็บสะสมส่วนได้เสียในเครือข่าย ในขณะที่บางคน บางครั้งอาจขายส่วนได้เสียเหล่านี้ คนอื่นก็จะยึดมันไว้ โดยจะกลายเป็นผู้เกี่ยวข้องและผู้สนับสนุนแพลตฟอร์ม ผู้เข้าร่วมที่พึ่งพาจะมีความสนใจที่สำคัญในความสำเร็จของเครือข่าย ในการส่งเสริมการเติบโตและการใช้งานที่เกินกว่าการใช้งานโดยตรงหรือการให้บริการทรัพยากรคอมพิวเตอร์

เมื่อเวลาผ่านไปเมื่อเครือข่ายถึงความเร็วหลบหนีและสร้างผลกระทบเครือข่ายที่แข็งแกร่งสิ่งจูงใจโทเค็นเหล่านี้สามารถค่อยๆลดลงได้ ประโยชน์ตามธรรมชาติของการเป็นตลาดที่ใหญ่ที่สุด - การจับคู่ที่ดีขึ้นการใช้ประโยชน์ที่สูงขึ้นความครอบคลุมทางภูมิศาสตร์ที่กว้างขึ้นจะกลายเป็นตัวขับเคลื่อนการเติบโตอย่างยั่งยืน

วิธีการสร้างกระแสตลาด GPU ด้วยการให้สิทธิ์ตั๋ว

การต่อต้านการเซ็นเซอร์

ในขณะที่ราคาและช่วงเป็นตัวแบ่งที่สำคัญ ระบบคอมพิวเตอร์ที่กระจายแก้ไขปัญหาความจำกัดในการดำเนินการจากผู้ให้บริการที่ให้บริการแบบกลาง ผู้ให้บริการคลาวด์แบบดั้งเดิมได้แสดงให้เห็นถึงความพร้อมที่จะระงับหรือยุติบริการตามนโยบายเนื้อหาและแรงกดดันจากภายนอก. ปฏิบัติเหล่านี้เป็นการเสนอคำถามที่ถูกต้องเกี่ยวกับว่านโยบายที่คล้ายกันอาจส่งต่อไปสู่การพัฒนาและการใช้งานโมเดล AI ได้อย่างไร

เมื่อโมเดล AI มีความซับซ้อนมากขึ้นและจัดการกับกรณีการใช้งานที่หลากหลายมากขึ้นจึงมีความเป็นไปได้จริงที่ผู้ให้บริการระบบคลาวด์อาจใช้ข้อ จํากัด ในการฝึกอบรมและให้บริการโมเดลคล้ายกับแนวทางการกลั่นกรองเนื้อหาที่มีอยู่ สิ่งนี้อาจส่งผลกระทบไม่เพียง แต่เนื้อหา NSFW และหัวข้อที่ถกเถียงกัน แต่ยังรวมถึงกรณีการใช้งานที่ถูกต้องตามกฎหมายในด้านต่างๆเช่นการถ่ายภาพทางการแพทย์การวิจัยทางวิทยาศาสตร์หรือศิลปะสร้างสรรค์ที่อาจเรียกใช้ตัวกรองอัตโนมัติที่ระมัดระวังมากเกินไป

เครือข่ายแบบไม่มีศูนย์กลางนี้ให้ตัวเลือกทางโครงสร้างที่เป็นอิสระแก่ผู้มีส่วนร่วมในตลาดเพื่อสร้างสภาพแวดล้อมที่เสรีและไม่จำกัดสำหรับนวัตกรรมได้อย่างเป็นอิสระ

ด้านกลับของสถาปัตยกรรมที่ไม่ต้องขออนุญาตคือความเป็นส่วนตัวที่ยากขึ้น เมื่อการคำนวณแบ่งแยกกันไปทั่วเครือข่ายของผู้ให้บริการแทนที่จะอยู่ในศูนย์ข้อมูลของภาคีเครือข่ายที่เชื่อถือได้เดียว นักพัฒนาจำเป็นต้องมีความระมัดระวังในเรื่องความปลอดภัยของข้อมูล ในขณะที่การเข้ารหัสและสิ่งแวดล้อมการดำเนินการที่เชื่อถือได้สามารถช่วยได้ นั่นคือมีการแลกเปลี่ยนระหว่างความต้านทานการตรวจสอบและความเป็นส่วนตัวที่นักพัฒนาต้องจัดการตามความต้องการที่เฉพาะเจาะจงของพวกเขา

ความเชื่อใจและการปฏิบัติตามสัญญา

ด้วยความต้องการสูงสุดของการคำนวณ AI จากผู้ให้บริการ GPU สามารถใช้ตำแหน่งของพวกเขาเพื่อสกัดกำไรสูงสุดจากลูกค้าที่ประสบความสำเร็จได้โพสต์จากปีที่แล้วในบทความที่ผู้พัฒนาคนดังอย่าง Pieter Levels แชร์ถึงประสบการณ์ของเขาและนักพัฒนาคนอื่นที่พบว่าผู้ให้บริการของพวกเขาเพิ่มราคาอย่างกะทันหันถึง 600% เมื่อเขาเผยแพร่รายได้จากแอปพลิเคชัน AI ของพวกเขา

ระบบที่ไม่มีศูนย์กลางสามารถให้ความสำคัญในการแก้ปัญหานี้ - การบังคับสัญญาโดยไม่มีการเชื่อมั่น เมื่อข้อตกลงถูกเข้ารหัสบนเชนแทนที่จะถูกฝังอยู่ในเงื่อนไขการให้บริการ พวกเขากลายเป็นโปร่งใสและไม่สามารถเปลี่ยนแปลงได้ ผู้ให้บริการไม่สามารถเพิ่มราคาหรือเปลี่ยนแปลงเงื่อนไขกลางสัญญาได้โดยไม่มีการเห็นด้วยโดยชัดเจนผ่านโปรโตคอล

นอกเหนือจากการกำหนดราคา ระบบที่ไม่ centralised สามารถใช้ประโยชน์จากtrusted execution environments (TEEs)เพื่อให้การคำนวณสามารถตรวจสอบได้ นั่นหมายความว่านักพัฒนาจะได้รับทรัพยากร GPU ที่พวกเขาจ่ายเงินให้แท้จริงทั้งในเรื่องของข้อมูลเฮาส์แวร์และการเข้าถึงที่ได้รับการจัดสรรเฉพาะ ตัวอย่างเช่น เมื่อนักพัฒนาจ่ายเงินเพื่อเข้าถึง H100 GPUs 8 ตัวสำหรับการฝึกโมเดล พรูฟร์เเวร์ทางคริปโทฟิคสามารถยืนยันได้ว่าข้อมูลที่พวกเขาทำงานจริงๆบน H100s ที่มีหน่วยความจำเต็ม 80GB ต่อ GPU ไม่ได้ถูกลดรุ่นลงนั่นเองหรือไม่ก็คือมีการใช้ทรัพยากรร่วมกับผู้ใช้อื่น ๆ อย่างเงียบ ๆ

Permissionless

เครือข่ายคอมพิวเตอร์แบบกระจายอํานาจสามารถให้ทางเลือกที่ไม่ได้รับอนุญาตอย่างแท้จริงแก่นักพัฒนา ซึ่งแตกต่างจากผู้ให้บริการแบบดั้งเดิมที่ต้องการกระบวนการ KYC ที่กว้างขวางและการตรวจสอบเครดิตทุกคนสามารถเข้าร่วมเครือข่ายเหล่านี้และเริ่มใช้หรือจัดหาทรัพยากรการประมวลผล สิ่งนี้ช่วยลดอุปสรรคในการเข้าสู่ตลาดได้อย่างมากโดยเฉพาะอย่างยิ่งสําหรับนักพัฒนาในตลาดเกิดใหม่หรือผู้ที่ทํางานในโครงการทดลอง

ความสำคัญของลักษณะที่ไม่ต้องขออนุญาตนี้กลายเป็นสิ่งที่มีประสิทธิภาพมากยิ่งขึ้นเมื่อพิจารณาถึงอนาคตของตัวแทน AI ตัวแทน AI เพิ่งเริ่มหาที่วางเท้าของตน ด้วยตัวแทนบูรณาการแนวตั้งคาดว่าจะเกินขนาดของอุตสาหกรรม SaaS ด้วยความชอบTruth TerminalและZerebroเราเห็นสัญญาณแรกของตัวแทนที่ได้รับเอกราชและเรียนรู้วิธีใช้เครื่องมือภายนอกเช่นโซเชียลมีเดียและตัวสร้างภาพ

เมื่อระบบเหล่านี้ก้าวไปสู่ความฉลาดที่ซับซ้อนมากขึ้น อาจจะต้องมีการจัดสรรทรัพยากรคอมพิวเตอร์ของตนเองอย่างไดนามิก ระบบเครือข่ายที่กระจายแบบที่สัญญาสามารถดำเนินการได้โดยไม่ต้องเชื่อมั่นในรหัสโดยตรงโดยตัวคอมพิวเตอร์แทนบุคคลตัวกลางเป็นอินฟราสตรัคเจอร์สำหรับอนาคตนี้ ตัวแทนสามารถเจรจาสัญญาโดยอัตโนมัติ ตรวจสอบประสิทธิภาพ และปรับใช้การคำนวณของตนอย่างอัตโนมัติตามความต้องการ โดยไม่ต้องการการเข้ามาของมนุษย์หรือการอนุมัติ

ภูมิประเทศ

แนวคิดของเครือข่ายคำนวณที่ไม่มีการกระจายก็ไม่ใหม่ - โครงการต่าง ๆ ได้พยายามทำให้มีการเข้าถึงทรัพยากรคำนวณที่ขาดแคลนมานานก่อนทวีความคิดปัจจุบันเครือข่ายเรนเดอร์ได้ทำงานตั้งแต่ปี 2017 โดยรวมทรัพยากร GPU สำหรับการสร้างภาพคอมพิวเตอร์อากาชเริ่มต้นในปี 2020 เพื่อสร้างตลาดเปิดรูปแบบสำหรับการคำนวณทั่วไป โครงการทั้งสองพบความสำเร็จปานกลางในส่วนของพวกเขา แต่ตอนนี้กำลังโฟกัสในโหลดงาน AI

อย่างเดียวกันระบบเก็บข้อมูลแบบกระจายเช่น gate.ioFilecoinและArweaveกำลังขยายธุรกิจเข้าสู่การคำนวณด้วย พวกเขารับรู้ว่าเมื่อ AI เป็นผู้บริโภคหลักของการเก็บข้อมูลและการคำนวณ การนำเสนอ解决方案ที่เชื่อมโยงกันเป็นสิ่งที่เหมาะสม

เช่นเดียวกับศูนย์ข้อมูลแบบดั้งเดิมที่ต้องพยายามการแข่งขันกับสถานที่ที่ตั้งไว้สำหรับสิ่งประดิษฐ์ AI เครือข่ายที่มีอยู่อย่างมากนี้ก็พบว่าต้องเผชิญกับการต่อสู้ที่ยากลำบากเมื่อเทียบกับโซลูชัน AI สามารถดำเนินการออร์เคสเทรชันที่ซับซ้อนที่ต้องการสำหรับภารกิจที่เกี่ยวข้องกับ AI แทนที่จะพบว่ากำลังค้นหาวิธีการโดยการเป็นผู้ให้บริการคอมพิวเตอร์แก่เครือข่าย AI อื่น ๆ ตัวอย่างเช่น Render และ Akash ตอนนี้ทำให้ GPU ของพวกเขามีอยู่ในตลาดของ io.net

เป็นตลาด AI-native ใหม่เหล่านี้คือใคร?io.netเป็นหนึ่งในผู้นำในการรวมแหล่งที่มีคุณภาพของ GPU สำหรับองค์กรในช่วงเริ่มแรก มี GPU ที่ได้รับการยืนยันมากกว่า 300,000 ในเครือข่ายของตน เขาบอกว่าพวกเขามีการประหยัดต้นทุนถึง 90% ต่อเทียบกับผู้เชี่ยวชาญที่ทำการรวมกลุ่มแล้ว และได้รับรายได้รายวันมากกว่า $25,000 ($9m ต่อปี) เช่นเดียวกัน Aethirรวมกว่า 40,000 GPU (รวมถึง H100 4,000+) เพื่อให้บริการทั้งกรณีการใช้งาน AI และคลาวด์คอมพิวติ้ง

ก่อนหน้านี้เราได้พูดถึงว่า Prime Intellect กำลังสร้างกรอบการฝึกอบรมแบบกระจายกลุ่มในมาตรฐานที่ใหญ่ขึ้น นอกจากนี้พวกเขายังให้บริการ ตลาด GPUที่ผู้ใช้สามารถเช่า H100s ตามความต้องการGensynเป็นโครงการอีกโครงการที่เล่นเดมพันใหญ่ในการฝึกอบรมแบบไม่มีส่วนในการกำหนดเวลาสอนที่คล้ายคลึงกับกรอบการฝึกอบรมรวมถึงการเข้าถึงตลาด GPU

ในขณะที่เหล่านี้เป็นตลาดที่ไม่ขึ้นกับภาระงาน (พวกเขาสนับสนุนการฝึกอบรมและการอิงเซ็น), โครงการบางโครงการเน้นไปที่การอิงเซ็นเท่านั้น - ภาระงานคำนวณที่กระจายที่เราตื่นเต้นที่สุด ที่สำคัญที่สุดคือ Exo Labs ซึ่งทำให้ผู้ใช้สามารถเรียกใช้ LLMs ระดับชั้นประทับใจบนอุปกรณ์ประจำวัน พวกเขาได้พัฒนาแพลตฟอร์มโอเพ่นซอร์สที่ช่วยให้การกระจายงานการอิงเซ็น AI ไปยังอุปกรณ์หลายตัวเช่น iPhone, Android และ Macแสดงเร็วๆ นี้ทำงานด้วยโมเดล 70-B (มีความยืดหยุ่นสูงสุดถึง 400-B) ที่กระจายอยู่ทั่วทั้งสี่เครื่อง Mac Mini รุ่น M4 Pro

โครงสร้างพื้นฐานที่สำคัญ

เมื่อซาโตชิเปิดตัวบิตคอยน์ในปี 2008 ประโยชน์ของมัน คือ ทองคำดิจิทัลที่มีจำนวนจำกัดและเป็นเงินที่ต้านการเซ็นเซอร์ นั้นเป็นเพียงทฤษฎีเท่านั้น ระบบการเงินดั้งเดิม ถึงแม้มันจะมีข้อบกพร่อง ก็ยังทำงานได้ ธนาคารกลางยังไม่ได้เริ่มการพิมพ์เงินอย่างไม่เกรงขาม การลงโทษระหว่างประเทศยังไม่ได้ถูกใช้อย่างเต็มที่ต่อเศรษฐกิจทั้งหมด ความจำเป็นที่จะต้องมีทางเลือก ดูเหมือนเป็นเรื่องทฤษฎีมากกว่าเรื่องเร่งด่วน

ใช้เวลาหลายสิบปีในการผ่อนคลายเชิงปริมาณ ซึ่งนําไปสู่การขยายตัวทางการเงินในยุคโควิด เพื่อประโยชน์ทางทฤษฎีของ Bitcoin ในการตกผลึกเป็นมูลค่าที่จับต้องได้ วันนี้เมื่ออัตราเงินเฟ้อกัดกร่อนการออมและความตึงเครียดทางภูมิรัฐศาสตร์คุกคามการครอบงําของดอลลาร์บทบาทของ Bitcoin ในฐานะ "ทองคําดิจิทัล" ได้พัฒนาจากความฝันของ cypherpunk เป็นสินทรัพย์ที่สถาบันและรัฐชาตินํามาใช้

แบบนี้เกิดซ้ำกับสกุลเงินที่มั่นคง ทันทีที่มีบล็อกเชนชนิดทั่วไปใน Ethereum มีอยู่ สกุลเงินที่มั่นคงก็ทันทีกลายเป็นหนึ่งในกรณีใช้ที่มีความเป็นไปได้มากที่สุด แต่ใช้เวลาหลายปีในการปรับปรุงเทคโนโลยีและเศรษฐกิจของประเทศเช่นอาร์เจนตินาและตุรกีที่ถูกทำลายด้วยการเงินเพื่อสกุลเงินที่มั่นคงให้ก้าวไกลจากนวัตกรรมคริปโตเล็กน้อยเป็นโครงสร้างการเงินที่สำคัญที่เคลื่อนย้ายเงินตันต่อปีหลายล้านดอลลาร์

เทคโนโลยีรหัสสกุลเงินเป็นเทคโนโลยีที่เป็นธรรมชาติที่เป็นเทคโนโลยีป้องกัน - นวัตกรรมที่ดูเหมือนไม่จำเป็นในช่วงเวลาที่ดี แต่กลายเป็นสิ่งจำเป็นในช่วงวิกฤต ความจำเป็นในการใช้งานเหล่านี้เกิดขึ้นเมื่อระบบที่มีอยู่ล้มเหลวหรือเปิดเผยความจริงของพวกเขาเท่านั้น

วันนี้เรากำลังอยู่ในยุคทองของ AI ทุนการลงทุนไหลเวียนอิสระ บริษัทแข่งขันเพื่อให้บริการในราคาที่ต่ำที่สุดและข้อจำกัดหากมีอยู่ก็น้อยมาก ในสภาพแวดล้อมเช่นนี้ ทางเลือกที่ไม่ส่วนกลางอาจดูซับซ้อนได้ ทำไมต้องเจริญกับเศรษฐศาสตร์โทเค็นและระบบพิสูจน์เมื่อผู้ให้บริการแบบดั้งเดิมทำงานได้ดี

แต่ด้วยการเริ่มต้นของคลื่นเทคโนโลยีที่สำคัญในอดีต ความกรุณาอย่างนี้เป็นชั่วคราวเท่านั้น เราอยู่ในช่วงเวลาสองปีเพียงเท่านั้นในการปฏิวัติ AI ในขณะที่เทคโนโลยีกำลังเจริญเติบโตและผู้ชนะในการแข่งขัน AI กำลังเกิดขึ้น พลังจริงๆ ของพวกเขาจะปรากฏออกมา บริษัทที่เดียวกันที่ในปัจจุบันนี้มอบการเข้าถึงอย่างเอื้ออาจจะมีอำนาจในอนาคต - ผ่านการกำหนดราคา ผ่านนโยบาย ผ่านการอนุญาต

นี่ไม่ใช่รอบที่สำคัญของเทคโนโลยีอื่น ๆ ที่เกี่ยวข้อง ปัจจุบัน AI เป็นฐานการดำเนินชีวิตใหม่ของมนุษยชาติ - เลนส์ที่เราจะใช้ประมวลผลข้อมูล สร้างศิลปะ ตัดสินใจ และสุดท้ายแล้ว พัฒนาตนเองเป็นสายพันธุ์ใหม่ การคำนวณไม่เพียงเป็นเพียงแค่ทรัพยากร มันเป็นสกุลเงินของความคิดเป็นรากฐาน ผู้ที่ควบคุมการไหลของมันจะเป็นผู้กำหนดทางหน้าสมองของมนุษยชาติ

การคำนวณที่ไม่centralised ไม่ได้เกี่ยวกับการ提供 GPU ราคาถูกหรือตัวเลือกการ implement ที่ยืดหยุ่นมากขึ้น (แม้ว่ามันต้องทำทั้งสองอย่างเพื่อประสบความสำเร็จ) มันเกี่ยวกับการให้ความสำคัญให้การเข้าถึงปัจจุบัน สู่ปัจจุบัน ที่เป็นเทคโนโลยีที่ทรงพลังที่สุดของมนุษย์ ที่ยังคงไม่สามารถถูกเซ็นเซอร์ได้และเป็นอิสระ มันเป็นเท็จารณะของเราต่ออนาคตที่เป็นอนิเวทิเบิลที่บริษัทในอนาคตจะกำหนดไม่เพียงแค่ใครสามารถใช้ AI ได้ แต่ยังมีวิธีการคิดด้วย

เรากำลังสร้างระบบเหล่านี้ในวันนี้ไม่ใช่เพราะว่าเราต้องการใช้งานทันที แต่เพราะว่าพวกเขาจะเป็นสิ่งสำคัญในวันพรุ่งนี้ เมื่อ AI เป็นสิ่งที่เป็นพื้นฐานสำหรับสังคมเช่นเดียวกับเงินการคำนวณที่ไม่ต้องได้รับอนุญาตจะไม่เป็นทางเลือกเท่าที่ Bitcoin และ stablecoin เป็นสิ่งสำคัญในการต่อต้านการควบคุมทางการเงิน

การแข่งขันสู่ซุปเปอร์อินเทอร์เล็กชั่นที่อาจอยู่นอกเหนือจากระบบแบบกระจาย แต่การให้แน่นอนว่าผลของปัญญาเทียมนี้ยังคงเข้าถึงได้สำหรับทุกคน? นั่นเป็นการแข่งขันที่คุ้มค่าที่ควรทำ

ประกาศการปฏิเสธความรับผิด

  1. บทความนี้ถูกพิมพ์ซ้ำจาก [Decentralised.co]. ส่งต่อชื่อเรื่องเดิม: คำนวณแบบกระจาย ลิขสิทธิ์ทั้งหมดเป็นของผู้เขียนเดิม [ Shlok Khemani]. หากมีคำประทับใจต่อการเผยแพร่นี้ กรุณาติดต่อ Gate Learnทีมของเราจะดูแลมันโดยเร็ว
  2. คำประกาศความรับผิดชอบ: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงของผู้เขียนเท่านั้นและไม่เป็นการให้คำแนะนำในการลงทุนใด ๆ
  3. การแปลบทความเป็นภาษาอื่นๆ ทำโดยทีม Gate Learn หากไม่ได้กล่าวถึง การคัดลอก การแจกจ่าย หรือการลอกเลียนแบบบทความที่แปลนั้นถือเป็นการละเมิดกฎหมาย
Empieza ahora
¡Registrarse y recibe un bono de
$100
!