
Avalon Nuovo สำหรับนิตยสาร Quanta
ลองนึกภาพไปที่ร้านฮาร์ดแวร์ในพื้นที่ของคุณและเห็นค้อนชนิดใหม่บนหิ้ง คุณเคยได้ยินเกี่ยวกับค้อนนี้: มันตีได้เร็วกว่าและแม่นยำกว่าแบบอื่นๆ และในช่วงไม่กี่ปีที่ผ่านมาทำให้ค้อนอื่นๆ ล้าสมัย อย่างน้อยก็สำหรับการใช้งานส่วนใหญ่ และยังมีอีก! ด้วยการปรับแต่งเล็กน้อย — สิ่งที่แนบมาที่นี่, การหมุน — เครื่องมือจะเปลี่ยนเป็นเลื่อยที่สามารถตัดได้อย่างน้อยก็เร็วและแม่นยำเหมือนกับตัวเลือกอื่น ๆ ที่มีอยู่ อันที่จริง ผู้เชี่ยวชาญบางคนที่ชายแดนของการพัฒนาเครื่องมือกล่าวว่าค้อนนี้อาจเป็นเพียงการประกาศการบรรจบกันของเครื่องมือทั้งหมดไว้ในอุปกรณ์เครื่องเดียว
เรื่องที่คล้ายกันกำลังเล่นอยู่ในเครื่องมือของปัญญาประดิษฐ์ ค้อนใหม่อเนกประสงค์นั้นเป็นโครงข่ายประสาทเทียมชนิดหนึ่ง ซึ่งเป็นเครือข่ายของโหนดที่ “เรียนรู้” วิธีทำงานบางอย่างโดยการฝึกอบรมเกี่ยวกับข้อมูลที่มีอยู่ ซึ่งเรียกว่าหม้อแปลงไฟฟ้า เดิมทีได้รับการออกแบบมาเพื่อรองรับภาษา แต่เพิ่งเริ่มส่งผลกระทบต่อโดเมน AI อื่นๆ
หม้อแปลงไฟฟ้าปรากฏตัวครั้งแรกในปี 2560 ในกระดาษที่ประกาศอย่างลับๆ ว่า “ Attention Is All You Need ” ในแนวทางอื่นๆ ของ AI ระบบจะเน้นที่แพตช์ของข้อมูลอินพุตในเครื่องก่อน จากนั้นจึงรวมเข้าด้วยกันทั้งหมด ในรูปแบบภาษา ตัวอย่างเช่น คำใกล้เคียงจะถูกจัดกลุ่มเข้าด้วยกันก่อน ในทางตรงกันข้าม หม้อแปลงไฟฟ้ารันกระบวนการเพื่อให้ทุกองค์ประกอบในข้อมูลอินพุตเชื่อมต่อหรือให้ความสนใจกับองค์ประกอบอื่นๆ ทั้งหมด นักวิจัยเรียกสิ่งนี้ว่า “การเอาใจใส่ตนเอง” ซึ่งหมายความว่าทันทีที่เริ่มฝึก หม้อแปลงจะมองเห็นร่องรอยของชุดข้อมูลทั้งหมด
ก่อนที่ทรานส์ฟอร์เมอร์จะเข้ามามีบทบาท ความก้าวหน้าในงานด้านภาษา AI นั้นส่วนใหญ่ล้าหลังกว่าการพัฒนาในด้านอื่นๆ แอนนา รัมชิสกี นักวิทยาศาสตร์คอมพิวเตอร์แห่งมหาวิทยาลัยแมสซาชูเซตส์ โลเวลล์ กล่าวว่า “ในการปฏิวัติการเรียนรู้เชิงลึกที่เกิดขึ้นในช่วง 10 ปีที่ผ่านมา การประมวลผลภาษาธรรมชาติเป็นเหมือนผู้ที่มาช้า” “ในแง่หนึ่ง NLP อยู่เบื้องหลังคอมพิวเตอร์วิทัศน์ Transformers เปลี่ยนแปลงสิ่งนั้น”
Transformers กลายเป็นผู้นำด้านแอปพลิเคชันอย่างรวดเร็ว เช่น การรู้จำคำที่เน้นการวิเคราะห์และการคาดเดาข้อความ ทำให้เกิดคลื่นของเครื่องมือ เช่น Generative Pre-trained Transformer 3 (GPT-3) ของ OpenAI ซึ่งฝึกคำศัพท์หลายแสนล้านคำและสร้างข้อความใหม่ที่สอดคล้องกันในระดับที่ไม่มั่นคง
ความสำเร็จของหม้อแปลงไฟฟ้ากระตุ้นให้กลุ่ม AI ถามว่าพวกเขาสามารถทำอะไรได้อีก คำตอบกำลังถูกเปิดเผยในขณะนี้ เนื่องจากนักวิจัยรายงานว่าหม้อแปลงได้รับการพิสูจน์แล้วว่าใช้งานได้หลากหลายอย่างน่าประหลาดใจ ในงานด้านการมองเห็นบางอย่าง เช่น การจำแนกภาพ โครงข่ายประสาทที่ใช้หม้อแปลงจะเร็วและแม่นยำกว่าที่ไม่ไม่ได้ใช้ งานที่เกิดขึ้นใหม่ในด้าน AI อื่นๆ เช่น การประมวลผลอินพุตหลายประเภทในคราวเดียว หรืองานวางแผน แสดงให้เห็นว่าหม้อแปลงสามารถรองรับได้มากขึ้น
“ดูเหมือนว่าทรานส์ฟอร์มเมอร์จะเปลี่ยนแปลงไปตามปัญหาต่างๆ ในการเรียนรู้ของเครื่อง ซึ่งรวมถึงการมองเห็นด้วยคอมพิวเตอร์” Vladimir Haltakov ผู้ซึ่งทำงานเกี่ยวกับคอมพิวเตอร์วิทัศน์ที่เกี่ยวข้องกับรถยนต์ไร้คนขับของ BMW ในมิวนิกกล่าว
เมื่อ 10 ปีที่แล้ว ฟิลด์ย่อยที่แตกต่างกันของ AI แทบไม่มีอะไรจะพูดกันเลย แต่การมาถึงของหม้อแปลงบ่งบอกถึงความเป็นไปได้ของการบรรจบกัน Atlas Wang นักวิทยาศาสตร์คอมพิวเตอร์แห่งมหาวิทยาลัยเทกซัส ออสติน กล่าวว่า “ฉันคิดว่าหม้อแปลงไฟฟ้าได้รับความนิยมอย่างมาก เพราะมันบ่งบอกถึงศักยภาพที่จะกลายเป็นสากล” “เรามีเหตุผลที่ดีที่จะลองใช้หม้อแปลงสำหรับทั้งสเปกตรัม” ของงาน AI
จากภาษาสู่วิสัยทัศน์
หนึ่งในขั้นตอนที่มีแนวโน้มมากที่สุดในการขยายช่วงของหม้อแปลงไฟฟ้าเริ่มขึ้นเพียงไม่กี่เดือนหลังจากการเปิดตัว “Attention Is All You Need” Alexey Dosovitskiy นักวิทยาศาสตร์คอมพิวเตอร์ในตอนนั้นที่ Google Brain Berlin กำลังทำงานเกี่ยวกับ Computer Vision ซึ่งเป็นสาขาย่อยของ AI ที่เน้นการสอนคอมพิวเตอร์ถึงวิธีการประมวลผลและจำแนกรูปภาพ เช่นเดียวกับคนอื่นๆ เกือบทุกคนในสาขานี้ เขาทำงานกับ Convolutional Neural Network (CNNs) ซึ่งเป็นเวลาหลายปีที่ขับเคลื่อนการก้าวกระโดดครั้งใหญ่ในการเรียนรู้เชิงลึกและโดยเฉพาะอย่างยิ่งในด้านการมองเห็นด้วยคอมพิวเตอร์
นักวิทยาศาสตร์คอมพิวเตอร์ Alexey Dosovitskiy ช่วยสร้างเครือข่ายประสาทที่เรียกว่า Vision Transformer ซึ่งใช้พลังของหม้อแปลงกับงานการจดจำภาพ
ซีเอ็นเอ็นทำงานโดยใช้ตัวกรองซ้ำๆ กับพิกเซลในรูปภาพเพื่อสร้างการจดจำคุณลักษณะต่างๆ เป็นเพราะการบิดเบี้ยวที่แอพรูปภาพสามารถจัดระเบียบห้องสมุดของคุณตามใบหน้าหรือแยกอะโวคาโดออกจากระบบคลาวด์ CNN ถือเป็นสิ่งที่ขาดไม่ได้สำหรับงานด้านการมองเห็น
Dosovitskiy กำลังทำงานบนหนึ่งในความท้าทายที่ใหญ่ที่สุดในภาคสนาม ซึ่งก็คือการเพิ่มขนาด CNN เพื่อฝึกฝนชุดข้อมูลที่ใหญ่ขึ้นกว่าเดิม ซึ่งแสดงถึงภาพที่มีความละเอียดสูงขึ้นเรื่อยๆ โดยไม่ต้องเสียเวลาประมวลผลซ้อน แต่แล้วเขาก็ดู Transformers เข้ามาแทนที่เครื่องมือที่เคยใช้ก่อนหน้านี้สำหรับงาน AI เกือบทั้งหมดที่เกี่ยวข้องกับภาษา “เราได้รับแรงบันดาลใจอย่างชัดเจนจากสิ่งที่เกิดขึ้น” เขากล่าว “พวกเขาได้รับผลลัพธ์ที่น่าอัศจรรย์เหล่านี้ทั้งหมด เราเริ่มสงสัยว่าเราจะทำสิ่งที่คล้ายคลึงกันในวิสัยทัศน์ได้หรือไม่” แนวคิดนี้สมเหตุสมผลดีแล้ว ถ้าหม้อแปลงสามารถรองรับชุดคำข้อมูลขนาดใหญ่ได้ ทำไมไม่ใช้รูปภาพล่ะ
ผลลัพธ์สุดท้ายคือเครือข่ายที่ขนานนามว่า Vision Transformer หรือ ViT ซึ่งนักวิจัย ได้นำเสนอในการประชุมในเดือนพฤษภาคม พ.ศ. 2564 สถาปัตยกรรมของแบบจำลองนั้นเกือบจะเหมือนกับของหม้อแปลงตัวแรกที่เสนอในปี 2560 โดยมีการเปลี่ยนแปลงเพียงเล็กน้อยเท่านั้นทำให้สามารถวิเคราะห์ภาพแทนคำพูดได้ “ ภาษามีแนวโน้มที่จะไม่ต่อเนื่อง” Rumshisky กล่าว “ดังนั้น การดัดแปลงหลายอย่างจึงต้องแยกภาพออกจากกัน”
ทีมงาน ViT ทราบดีว่าพวกเขาไม่สามารถเลียนแบบวิธีการทางภาษาได้อย่างแน่นอน เนื่องจากการเอาใจใส่ตนเองในทุกพิกเซลจะมีค่าใช้จ่ายสูงในการประมวลผลเวลา แต่จะแบ่งรูปภาพขนาดใหญ่ออกเป็นหน่วยสี่เหลี่ยมจัตุรัสหรือโทเค็นแทน ขนาดเป็นไปตามอำเภอใจ เนื่องจากโทเค็นสามารถทำให้ใหญ่ขึ้นหรือเล็กลงได้ขึ้นอยู่กับความละเอียดของภาพต้นฉบับ (ค่าเริ่มต้นคือ 16 พิกเซลที่ด้านข้าง) แต่ด้วยการประมวลผลพิกเซลเป็นกลุ่ม และใช้การเอาใจใส่ตนเองกับแต่ละพิกเซล ViT สามารถเปลี่ยนชุดข้อมูลการฝึกอบรมจำนวนมหาศาลได้อย่างรวดเร็ว โดยแยกการจำแนกประเภทที่แม่นยำขึ้น
Maithra Raghu นักวิทยาศาสตร์คอมพิวเตอร์ที่ Google Brain ได้วิเคราะห์ Vision Transformer เพื่อระบุว่า “เห็น” ภาพอย่างไร ซึ่งแตกต่างจากโครงข่ายประสาทเทียมที่เน้นส่วนเล็กๆ ก่อนเพื่อหารายละเอียด เช่น ขอบหรือสี หม้อแปลงสามารถจับภาพทั้งหมดได้ตั้งแต่ต้น
กลุ่มของเธอระบุวิธีที่การเอาใจใส่ตนเองนำไปสู่วิธีการรับรู้ที่แตกต่างกันภายในอัลกอริทึม ในที่สุด พลังของหม้อแปลงไฟฟ้ามาจากวิธีที่มันประมวลผลข้อมูลที่เข้ารหัสของภาพ “ใน CNN คุณเริ่มต้นจากการเป็นคนในท้องถิ่นและค่อยๆ เข้าใจมุมมองระดับโลก” Raghu กล่าว ซีเอ็นเอ็นรับรู้ภาพทีละพิกเซล โดยระบุคุณลักษณะต่างๆ เช่น มุมหรือเส้นโดยเพิ่มจากระดับท้องถิ่นไปสู่ส่วนกลาง แต่ในหม้อแปลง ด้วยความใส่ใจในตัวเอง แม้แต่การประมวลผลข้อมูลชั้นแรกก็ทำให้การเชื่อมต่อระหว่างตำแหน่งภาพที่ห่างไกล (เช่นเดียวกับภาษา) หากวิธีการของ CNN เหมือนกับการเริ่มต้นที่พิกเซลเดียวและซูมออก หม้อแปลงจะค่อยๆ นำภาพที่คลุมเครือทั้งหมดมาสู่โฟกัส
ความแตกต่างนี้เข้าใจได้ง่ายกว่าในขอบเขตของภาษา ที่เกิดหม้อแปลงไฟฟ้าขึ้นเป็นครั้งแรก พิจารณาประโยคเหล่านี้: “นกเค้าแมวสอดแนมกระรอก มันพยายามจับมันด้วยกรงเล็บของมันแต่ได้เพียงปลายหางของมันเท่านั้น” โครงสร้างของประโยคที่สองทำให้เกิดความสับสน: “มัน” หมายถึงอะไร? ซีเอ็นเอ็นที่เน้นเฉพาะคำศัพท์ที่อยู่รอบๆ “มัน” นั้นคงยากลำบาก แต่หม้อแปลงไฟฟ้าที่เชื่อมโยงทุกคำกับทุกคำสามารถแยกแยะได้ว่านกเค้าแมวกำลังคว้าตัว และกระรอกก็สูญเสียส่วนหางของมันไป
ตอนนี้เป็นที่ชัดเจนว่าหม้อแปลงประมวลผลภาพที่แตกต่างจากเครือข่ายแบบบิดเบี้ยวโดยพื้นฐานแล้วนักวิจัยก็รู้สึกตื่นเต้นมากขึ้นเท่านั้น ความเก่งกาจของหม้อแปลงในการแปลงข้อมูลจากสตริงหนึ่งมิติ เช่น ประโยค เป็นอาร์เรย์สองมิติ เช่น รูปภาพ แสดงให้เห็นว่าโมเดลดังกล่าวสามารถจัดการกับข้อมูลรสชาติอื่นๆ ได้มากมาย ตัวอย่างเช่น Wang คิดว่าหม้อแปลงอาจเป็นขั้นตอนใหญ่ในการบรรลุการบรรจบกันของสถาปัตยกรรมโครงข่ายประสาทเทียม ส่งผลให้เกิดแนวทางสากลในการมองเห็นด้วยคอมพิวเตอร์ และอาจรวมถึงงาน AI อื่นๆ ด้วย “แน่นอนว่ามีข้อจำกัดในการทำให้มันเกิดขึ้นจริง” เขากล่าว “แต่ถ้ามีโมเดลที่สามารถทำให้เกิดความเป็นสากลได้ ซึ่งคุณสามารถใส่ข้อมูลทุกประเภทลงในเครื่องเดียวได้ แน่นอนว่านั่นเป็นสิ่งที่น่าสนใจมาก”
คอนเวอร์เจนซ์ มา
ตอนนี้นักวิจัยต้องการใช้หม้อแปลงกับงานที่ยากยิ่งขึ้น: การประดิษฐ์ภาพใหม่ เครื่องมือภาษา เช่น GPT-3 สามารถสร้างข้อความใหม่ตามข้อมูลการฝึกอบรม ใน บทความ ที่นำเสนอเมื่อปีที่แล้ว Wang ได้รวมโมเดลหม้อแปลงสองรุ่นเข้าด้วยกันเพื่อพยายามทำแบบเดียวกันสำหรับรูปภาพ ซึ่งเป็นปัญหาที่ยากกว่ามาก เมื่อเครือข่ายหม้อแปลงคู่ฝึกฝนบนใบหน้าของดารามากกว่า 200,000 คน มันสังเคราะห์ภาพใบหน้าใหม่ที่ความละเอียดปานกลาง คนดังที่ถูกประดิษฐ์ขึ้นนั้นมีความสมจริงอย่างน่าประทับใจและอย่างน้อยก็น่าเชื่อพอๆ กับที่สร้างโดย CNN ตามคะแนนการเริ่มต้น ซึ่งเป็นวิธีมาตรฐานในการประเมินภาพที่สร้างโดยโครงข่ายประสาท
Wang โต้แย้งว่าความสำเร็จของหม้อแปลงไฟฟ้าในการสร้างภาพนั้นน่าประหลาดใจมากกว่าความสามารถในการจำแนกรูปภาพของ ViT “แบบจำลองกำเนิดจำเป็นต้องสังเคราะห์ ต้องสามารถเพิ่มข้อมูลให้ดูน่าเชื่อถือได้” เขากล่าว และเช่นเดียวกับการจำแนกประเภท แนวทางของหม้อแปลงกำลังเข้ามาแทนที่เครือข่ายแบบหมุนวน
Raghu และ Wang มองเห็นศักยภาพในการใช้งานใหม่ของหม้อแปลงใน การประมวลผลหลายรูป แบบ ซึ่งเป็นแบบจำลองที่สามารถจัดการกับข้อมูลหลายประเภทพร้อมกันได้ เช่น รูปภาพดิบ วิดีโอ และภาษา Raghu กล่าวว่า “ก่อนหน้านี้ทำได้ยากกว่า” เนื่องจากวิธีการแบบแยกส่วนซึ่งข้อมูลแต่ละประเภทมีรูปแบบเฉพาะของตนเอง แต่หม้อแปลงแนะนำวิธีการรวมแหล่งอินพุตหลายตัวเข้าด้วยกัน “มีแอพพลิเคชั่นที่น่าสนใจมากมาย ซึ่งรวมข้อมูลและรูปภาพประเภทต่างๆ เหล่านี้เข้าด้วยกัน” ตัวอย่างเช่น เครือข่ายต่อเนื่องหลายรูปแบบอาจขับเคลื่อนระบบที่อ่านริมฝีปากของบุคคลนอกเหนือจากการฟังเสียงของพวกเขา Raghu กล่าวว่า “คุณสามารถนำเสนอข้อมูลทั้งภาษาและรูปภาพได้อย่างละเอียดถี่ถ้วน” และในทางที่ลึกกว่าที่เคยเป็นมาก่อน

ใบหน้าเหล่านี้ถูกสร้างขึ้นโดยเครือข่ายที่ใช้หม้อแปลงไฟฟ้าหลังจากฝึกฝนชุดข้อมูลของคนดังมากกว่า 200,000 คน
ได้รับความอนุเคราะห์จาก Atlas Wang
งานที่เกิดขึ้นใหม่นี้ชี้ให้เห็นถึงการใช้งานใหม่ๆ สำหรับหม้อแปลงในโดเมน AI อื่นๆ รวมถึงการสอนหุ่นยนต์ให้ รู้จักการเคลื่อนไหวของร่างกายมนุษย์ การ ฝึกเครื่องให้ แยกแยะอารมณ์ในการพูด และ การตรวจจับระดับความเครียดในคลื่นไฟฟ้าหัวใจ โปรแกรมอื่นที่มีส่วนประกอบของหม้อแปลงคือ AlphaFold ซึ่งเป็นหัวข้อข่าวในปีที่แล้วเนื่องจากความสามารถในการทำนายโครงสร้างโปรตีนอย่างรวดเร็ว ซึ่งเป็นงานที่เคยต้องใช้เวลากว่าทศวรรษของการวิเคราะห์อย่างเข้มข้น
การแลกเปลี่ยน
แม้ว่าหม้อแปลงไฟฟ้าสามารถช่วยรวมและปรับปรุงเครื่องมือของ AI ได้ แต่เทคโนโลยีที่เกิดขึ้นใหม่มักมีต้นทุนที่สูงชัน และสิ่งนี้ก็ไม่ต่างกัน หม้อแปลงไฟฟ้าต้องใช้พลังงานในการคำนวณที่สูงขึ้นในช่วงก่อนการฝึกอบรมก่อนที่จะสามารถเอาชนะความแม่นยำของคู่แข่งทั่วไปได้
นั่นอาจเป็นปัญหา “ผู้คนมักให้ความสนใจกับภาพความละเอียดสูงมากขึ้นเรื่อยๆ” หวางกล่าว ค่าใช้จ่ายในการฝึกอบรมอาจเป็นอุปสรรคต่อการใช้งานหม้อแปลงไฟฟ้าอย่างกว้างขวาง อย่างไรก็ตาม Raghu มองว่าอุปสรรคในการฝึกฝนเป็นสิ่งที่สามารถเอาชนะได้ง่ายๆ ด้วยตัวกรองที่ซับซ้อนและเครื่องมืออื่นๆ
Wang ยังชี้ให้เห็นว่าแม้ว่า Visual Transformer ได้จุดประกายความพยายามใหม่ในการผลักดัน AI ไปข้างหน้า ซึ่งรวมถึงของเขาเองด้วย แต่รุ่นใหม่ๆ จำนวนมากยังคงรวมเอาส่วนที่ดีที่สุดของการบิดเข้าไว้ด้วยกัน นั่นหมายความว่าโมเดลในอนาคตมีแนวโน้มที่จะใช้ทั้งคู่มากกว่าที่จะละทิ้ง CNN โดยสิ้นเชิง เขากล่าว
นอกจากนี้ยังชี้ให้เห็นถึงโอกาสที่ยั่วเย้าของสถาปัตยกรรมไฮบริดบางตัวที่ใช้จุดแข็งของหม้อแปลงไฟฟ้าในลักษณะที่นักวิจัยในปัจจุบันไม่สามารถคาดเดาได้ “บางทีเราไม่ควรรีบสรุปว่าหม้อแปลงไฟฟ้าจะเป็นรุ่นสุดท้าย” หวางกล่าว แต่มีแนวโน้มมากขึ้นที่หม้อแปลงจะเป็นส่วนหนึ่งของเครื่องมือสุดยอดใหม่ ๆ ที่ร้านค้า AI ใกล้บ้านคุณ