นี่เป็นข้อความที่ตัดตอนมาจาก Trustworthy AI: A Business Guide for Navigating Trust and Ethics in AI โดย Beena Ammanath (Wiley, มีนาคม 2022) Ammanath เป็นกรรมการบริหารของ Global Deloitte AI Institute และเป็นผู้นำด้านเทคโนโลยีที่น่าเชื่อถือและมีจริยธรรมที่ Deloitte เธอดำรงตำแหน่งผู้นำด้านปัญญาประดิษฐ์และวิทยาศาสตร์ข้อมูลในหลายบริษัท และเป็นผู้ก่อตั้ง Humans For AI ซึ่งเป็นองค์กรที่อุทิศตนเพื่อเพิ่มความหลากหลายใน AI
ด้วยการฝึกอบรมโมเดล AI ชุดข้อมูลเป็นตัวแทนของโลกแห่งความเป็นจริง โมเดลได้รับการฝึกอบรมในชุดข้อมูลหนึ่งชุดและทดสอบกับอีกชุดหนึ่ง และหากผลลัพธ์เหมือนกัน ก็มีความคาดหวังว่าฟังก์ชันของแบบจำลองจะสามารถแปลไปยังสภาพแวดล้อมการทำงานได้ สิ่งที่ใช้ได้ผลในห้องปฏิบัติการควรทำงานอย่างต่อเนื่องในโลกแห่งความเป็นจริง แต่นานแค่ไหน? สถานการณ์การทำงานที่สมบูรณ์แบบนั้นหายากใน AI และข้อมูลในโลกแห่งความเป็นจริงนั้นยุ่งเหยิงและซับซ้อน สิ่งนี้นำไปสู่สิ่งที่ Andrew Ng นักวิจัย AI ชั้นนำเรียกว่า “ช่องว่างการพิสูจน์แนวคิดสู่การผลิต” โดยที่แบบจำลองจะฝึกตามที่ต้องการ แต่จะล้มเหลวเมื่อนำไปใช้ งาน ส่วนหนึ่งเป็นปัญหาด้านความทนทานและความน่าเชื่อถือ
เมื่อผลลัพธ์มีความแม่นยำไม่คงที่และแย่ลงเมื่อเวลาผ่านไป ผลลัพธ์ก็คือความไม่แน่นอน นักวิทยาศาสตร์ด้านข้อมูลถูกท้าทายให้สร้างแบบจำลอง AI ที่พิสูจน์ได้อย่างแม่นยำและสม่ำเสมอเมื่อเผชิญกับการเปลี่ยนแปลงของข้อมูลในโลกแห่งความเป็นจริง ในฟลักซ์ข้อมูล อัลกอริธึมสามารถหลีกเลี่ยงได้ โดยมีการเปลี่ยนแปลงเล็กน้อยในอินพุตที่เรียงซ้อนกันเป็นการเปลี่ยนแปลงขนาดใหญ่ในฟังก์ชัน
แน่นอนว่าไม่ใช่เครื่องมือทั้งหมดที่ทำงานในสภาพแวดล้อมที่มีแนวโน้มที่จะเปลี่ยนแปลงอย่างมาก และไม่ใช่ทุกโมเดล AI ที่มีความเสี่ยงและผลที่ตามมาในระดับเดียวกัน หากเครื่องมือเหล่านี้ไม่แม่นยำหรือไม่น่าเชื่อถือ งานสำหรับองค์กรต่างๆ เมื่อพวกเขาขยายรอยเท้าของ AI คือการชั่งน้ำหนักความทนทานและความน่าเชื่อถือเป็นองค์ประกอบของกลยุทธ์ AI และจัดกระบวนการ บุคลากร และเทคโนโลยีที่สามารถจัดการและแก้ไขข้อผิดพลาดในสภาพแวดล้อมแบบไดนามิก
ด้วยเหตุนี้ เราเริ่มต้นด้วยแนวคิดหลักบางประการในด้าน AI ที่แข็งแกร่งและเชื่อถือได้
AI ที่แข็งแกร่งเทียบกับเปราะ
องค์การระหว่างประเทศเพื่อการมาตรฐานกำหนดความทนทานของ AI ว่าเป็น “ความสามารถของระบบ AI ในการรักษาระดับประสิทธิภาพในทุกสถานการณ์” ในแบบจำลองที่มีประสิทธิภาพ อัตราความผิดพลาดในการฝึก อัตราข้อผิดพลาดในการทดสอบ และอัตราข้อผิดพลาดในการปฏิบัติงานล้วนใกล้เคียงกัน และเมื่อพบข้อมูลที่ไม่คาดคิดในการทำงานหรือเมื่อแบบจำลองทำงานในสภาวะที่ไม่เป็นไปตามอุดมคติ เครื่องมือ AI ที่มีประสิทธิภาพจะยังคงให้ผลลัพธ์ที่แม่นยำ
ตัวอย่างเช่น หากตัวแบบสามารถระบุทุกภาพของเครื่องบินในชุดข้อมูลการฝึกและได้รับการพิสูจน์ว่าปฏิบัติงานในระดับสูงกับข้อมูลการทดสอบ แบบจำลองนั้นควรจะสามารถระบุภาพเครื่องบินในชุดข้อมูลใดๆ ได้ แม้ว่าจะไม่พบก็ตาม พวกเขาก่อนหน้านี้ แต่ตัวแบบระบุเครื่องบินจะทำงานอย่างไรถ้าเครื่องบินเป็นสีชมพู ถ่ายตอนค่ำ ไม่มีปีก หรือเมื่อมองจากมุม ประสิทธิภาพของมันลดลงหรือไม่ และถ้าเป็นเช่นนั้น โมเดลนั้นจะไม่สามารถใช้งานได้อีกต่อไป ณ จุดใด?
เมื่อการเปลี่ยนแปลงเล็กๆ น้อยๆ ในสภาพแวดล้อมทำให้เกิดการเปลี่ยนแปลงอย่างมากในด้านการทำงานและความแม่นยำ โมเดลจะถือว่าไม่ยืดหยุ่นหรือ “เปราะ” ความเปราะบางเป็นแนวคิดที่เป็นที่รู้จักในด้านวิศวกรรมซอฟต์แวร์ และเหมาะสำหรับ AI เช่นกัน ในที่สุด โมเดล AI ทั้งหมดนั้นเปราะบางในระดับหนึ่ง เครื่องมือ AI ประเภทต่างๆ ที่เราใช้นั้นมีความเฉพาะเจาะจงกับการทำงานและการใช้งาน AI ทำเฉพาะสิ่งที่เราฝึกให้ทำเท่านั้น
มีองค์ประกอบอื่นนี้ การปรับใช้และการจัดการ AI เหล่านั้นต้องชั่งน้ำหนักว่าการเปลี่ยนแปลงข้อมูลในโลกแห่งความเป็นจริงนำไปสู่ความแม่นยำของแบบจำลองที่ลดลงเมื่อเวลาผ่านไปอย่างไร ในปรากฏการณ์ “การเลื่อนลอยของแบบจำลอง” ความแม่นยำในการคาดการณ์ของเครื่องมือ AI จะลดลงเมื่อตัวแปรพื้นฐานที่แจ้งการเปลี่ยนแปลงของแบบจำลอง สัญญาณและแหล่งข้อมูลที่เคยเชื่อถือได้จะไม่น่าเชื่อถือ การทำงานผิดพลาดที่ไม่คาดคิดในเครือข่ายอาจนำไปสู่การเปลี่ยนแปลงในกระแสข้อมูล
AI ที่เล่นหมากรุกมักจะแข็งแกร่งเมื่อเวลาผ่านไป เนื่องจากกฎของหมากรุกและการเคลื่อนไหวที่ AI จะเผชิญนั้นคาดเดาได้และคงที่ ในทางกลับกัน แชทบอทสำหรับการประมวลผลภาษาธรรมชาติ (NLP) จะทำงานในลักษณะที่ลื่นไหลของรูปแบบคำพูด ภาษาที่ใช้พูด ไวยากรณ์และไวยากรณ์ที่ไม่ถูกต้อง และปัจจัยที่เปลี่ยนแปลงหลายอย่าง ด้วยแมชชีนเลิร์นนิง ข้อมูลที่ไม่คาดคิดหรือการคำนวณที่ไม่ถูกต้องอาจทำให้แบบจำลองหลงทาง และสิ่งที่เริ่มต้นเมื่อเครื่องมือที่มีประสิทธิภาพจะเสื่อมโทรมลงจนเปราะบาง เว้นแต่จะใช้กลยุทธ์การแก้ไข
การพัฒนา AI . ที่เชื่อถือได้
ศูนย์วิจัยร่วมของคณะกรรมาธิการยุโรปตั้งข้อสังเกตว่าการประเมินความน่าเชื่อถือ จำเป็น ต้องพิจารณาประสิทธิภาพและความเปราะบาง AI ที่เชื่อถือได้ทำงานตามที่คาดไว้แม้จะได้รับอินพุตที่ไม่รวมอยู่ในข้อมูลการฝึกอบรม สิ่งที่เรียกว่าอินพุตที่ไม่อยู่ในการกระจาย (OOD) สิ่งเหล่านี้คือจุดข้อมูลที่แตกต่างจากชุดการฝึก และ AI ที่เชื่อถือได้จะต้องสามารถตรวจจับได้ว่าข้อมูลเป็น OOD หรือไม่ ความท้าทายประการหนึ่งคือสำหรับบางรุ่น อินพุต OOD สามารถจัดประเภทด้วยความมั่นใจสูง ซึ่งหมายความว่าเครื่องมือ AI นั้นมีความน่าเชื่อถืออย่างเห็นได้ชัด ทั้งที่ความจริงแล้วไม่เป็นเช่นนั้น
ใช้หุ่นยนต์ส่งของอัตโนมัติ ระบบนำทาง AI ได้รับการปรับให้เหมาะสมเพื่อค้นหาเส้นทางที่ตรงที่สุดไปยังปลายทาง ชุดข้อมูลการฝึกอบรมมีข้อมูลตัวอย่างทั้งหมดที่ AI จำเป็นต้องจดจำทางเท้า ถนน ทางม้าลาย ทางม้าลาย ทางเท้า คนเดินถนน และตัวแปรอื่นๆ ทั้งหมด ยกเว้นรางรถไฟที่ตัดกับทางเดิน ในการทำงาน หุ่นยนต์จะระบุรางรถไฟในเส้นทางของมัน และในขณะที่พวกมันเป็น OOD นั้น AI จะคำนวณความมั่นใจอย่างสูงว่ารางเป็นเพียงทางเท้ารูปแบบใหม่ ซึ่งจะตามมาเพื่อเร่งการส่งมอบ เห็นได้ชัดว่า AI หลงทางเนื่องจากอินพุต OOD หากไม่ได้ถูกรถไฟชน มันจะตรวจสอบหุ่นยนต์ส่งของ “นี่คือเส้นทางที่ใช้งานได้” และอาจมองหารางรถไฟอื่นๆ ที่จะใช้ และผู้ดำเนินการอาจไม่มีใครฉลาดกว่า – จนกว่ารถไฟจะเข้ามา
AI ที่เชื่อถือได้นั้นแม่นยำเมื่อเผชิญกับอินพุตใหม่ ซึ่งแตกต่างจากประสิทธิภาพโดยเฉลี่ย แบบจำลองที่ให้ประสิทธิภาพโดยเฉลี่ยที่ดีอาจยังคงให้ผลลัพธ์เป็นครั้งคราวโดยมีผลกระทบที่สำคัญ ซึ่งขัดขวางความน่าเชื่อถือ หากเครื่องมือ AI มีความแม่นยำถึง 80% จะเป็นโมเดลที่น่าเชื่อถือหรือไม่? เรื่องที่เกี่ยวข้องกันคือความยืดหยุ่นต่อจุดอ่อน ไม่ว่าจะเป็นผลตามธรรมชาติจากการดำเนินงานหรือผลของการหาประโยชน์จากฝ่ายตรงข้าม
บทเรียนเรื่องความน่าเชื่อถือของข้อมูล
คุณภาพของแบบจำลองนั้นดีเท่ากับข้อมูลการฝึกอบรมและการทดสอบที่ใช้ในการพัฒนาเท่านั้น หากไม่มั่นใจในคุณภาพของข้อมูลเมื่อเทียบกับการเป็นตัวแทนของโลกแห่งความเป็นจริง เอาต์พุตของโมเดลอาจไม่ให้เอาต์พุตที่ถูกต้องแม่นยำในสภาพแวดล้อมการปฏิบัติงานได้อย่างน่าเชื่อถือ สำหรับสำนักงานความรับผิดชอบของรัฐบาลสหรัฐฯ ความน่าเชื่อถือของข้อมูลขึ้นอยู่กับ:
- การบังคับใช้ – ข้อมูลมีการวัดคุณภาพที่เกี่ยวข้องหรือไม่?
- ความสมบูรณ์ – ชุดข้อมูลถูกเติมลงในแอตทริบิวต์ทั้งหมดในระดับใด
- ความแม่นยำ – ข้อมูลสะท้อนถึงโลกแห่งความเป็นจริงที่ชุดข้อมูลถูกรวบรวมหรือไม่?
สิ่งเหล่านี้เป็นองค์ประกอบที่ตัดขวางของข้อมูลที่น่าเชื่อถือ เช่นเดียวกับ AI ชุดข้อมูลจำเป็นต้องได้รับการดูแลจัดการอย่างเพียงพอ และในบางกรณี มีการติดป้ายกำกับหรือเสริมด้วยข้อมูลสังเคราะห์ ซึ่งสามารถชดเชยจุดข้อมูลที่ขาดหายไปหรือกรอกข้อมูลที่ได้รับการป้องกันที่ไม่สามารถ (หรือไม่ควร) ใช้ในการฝึกอบรมได้ ข้อมูลจะต้องถูกขัดเกลาสำหรับอคติแฝง ซึ่งบิดเบือนการฝึกแบบจำลองและนำไปสู่ผลลัพธ์ที่ไม่พึงประสงค์หรือการคาดคะเน
เช่นเดียวกับเครื่องมือ AI ข้อมูลการดำเนินงานในโลกแห่งความเป็นจริงจำเป็นต้องได้รับการตรวจสอบสำหรับแนวโน้มที่เปลี่ยนแปลงและความต้องการด้านวิทยาศาสตร์ข้อมูลที่เกิดขึ้นใหม่ ตัวอย่างเช่น แบบจำลองที่ทำการวิเคราะห์ความรู้สึกอาจได้รับการฝึกอบรมเพื่อให้คะแนนความรู้สึกผ่านตัวแปรหลายสิบตัว แต่หลังจากการปรับใช้ ทีม AI จะระบุตัวแปรอื่นๆ ที่จำเป็นต้องนำมาพิจารณาในการเลื่อนลอยของแบบจำลองและการฝึกใหม่
เช่นเดียวกับความน่าเชื่อถือ การบังคับใช้ข้อมูลไม่คงที่ ในทำนองเดียวกัน ความถูกต้องของข้อมูลอาจผันผวนตามประสิทธิภาพของเซ็นเซอร์ ไม่ว่าจะมีปัญหาด้านเวลาแฝงหรือความพร้อมใช้งาน หรือปัจจัยที่ทราบแล้วใดๆ ที่อาจขัดขวางความน่าเชื่อถือของข้อมูล
แนวปฏิบัติชั้นนำในการสร้าง AI ที่แข็งแกร่งและเชื่อถือได้
ไม่ว่าโมเดลจะถูกขัดขวางโดยข้อมูลที่ไม่คุ้นเคย ถูกรบกวนโดยผู้ประสงค์ร้าย หรือความผิดพลาดจากความแม่นยำ องค์กรควรฝังความสามารถในการประเมินความเสี่ยงของการปรับใช้ AI ไว้ในโครงการริเริ่ม ติดตามประสิทธิภาพตามข้อกำหนดที่กำหนด การวัด (หากไม่ได้วัด) ความทนทาน และ มีกระบวนการในการแก้ไขแบบจำลองที่ล้มเหลวหรือการดริฟท์เมื่อความน่าเชื่อถือลดลง เนื่องจากความน่าเชื่อถือมาจากความแข็งแกร่ง กิจกรรมบางอย่างที่สามารถนำไปสู่ความน่าเชื่อถือของ AI ได้แก่:
เกณฑ์มาตรฐานสำหรับความน่าเชื่อถือ
แม้ว่าการฝึกโมเดลจะดำเนินต่อไป ให้ระบุและกำหนดว่าการวัดประสิทธิภาพใดมีค่ามากที่สุดสำหรับการติดตามและการวัดความเชื่อถือได้ เกณฑ์มาตรฐานอาจรวมถึงวิธีการทำงานของระบบ AI เทียบกับประสิทธิภาพของมนุษย์ ซึ่งเหมาะสมอย่างยิ่งเนื่องจากโมเดลการเรียนรู้เชิงลึกพยายามเลียนแบบการรับรู้ของมนุษย์
ดำเนินการตรวจสอบข้อมูล
ในฐานะองค์ประกอบของการทดสอบ ให้ทบทวนการประเมินความน่าเชื่อถือของข้อมูล การดำเนินการแก้ไข และตัวอย่างข้อมูลจากการฝึกอบรม ดึงดูดผู้มีส่วนได้ส่วนเสียด้านข้อมูล (เช่น ผู้นำด้านไอที ผู้เชี่ยวชาญด้านกฎหมาย นักจริยธรรม) เพื่อสำรวจคุณภาพของข้อมูลและความน่าเชื่อถือ โมเดล AI ต้องการชุดข้อมูลที่สะท้อนถึงโลกแห่งความเป็นจริง ดังนั้นในฐานะองค์ประกอบของการตรวจสอบข้อมูล ให้ตรวจสอบระดับว่าชุดข้อมูลใดมีความสมดุล ไม่เอนเอียง นำไปใช้ได้ และสมบูรณ์
ตรวจสอบความน่าเชื่อถือเมื่อเวลาผ่านไป
ความน่าเชื่อถือพัฒนาไปตลอดวงจรชีวิตของ AI เมื่อผลลัพธ์ของแบบจำลองหรือการคาดการณ์แตกต่างไปจากที่คาดไว้ ให้จัดหมวดหมู่ข้อมูลสำหรับการวิเคราะห์และการตรวจสอบ ประเภทของข้อมูลที่มักใช้ในการวิเคราะห์นี้ ได้แก่ เวลาต่อเหตุการณ์ (นานแค่ไหนจนกว่าแบบจำลองจะแยกจากกัน) ข้อมูลการเสื่อมคุณภาพ (ข้อมูลโดยรอบว่าแบบจำลองลดลงอย่างไร) และ ข้อมูลเหตุการณ์ที่เกิดซ้ำ (ข้อผิดพลาดที่เกิดขึ้นมากกว่าหนึ่งครั้ง)
ค่าประมาณความไม่แน่นอน
ความฉลาดสร้างความมั่นใจ เพื่อให้มองเห็นได้ลึกซึ้งยิ่งขึ้นว่า AI ทำงานอย่างไร มีเครื่องมือที่อนุญาตให้โมเดลรายงานระดับของความไม่แน่นอนควบคู่ไปกับการคาดการณ์หรือผลลัพธ์ สิ่งนี้นำไปสู่ความไว้วางใจในระบบที่แข็งแกร่ง หากแบบจำลองรายงานความไม่แน่นอนสูง นั่นเป็นความเข้าใจอันมีค่าสำหรับผู้ปฏิบัติงานที่เป็นมนุษย์หรือ AI เครือข่ายอื่น การประมาณความไม่แน่นอนสามารถตั้งค่าสถานะโมเดลการเคลื่อนตัว เน้นการเปลี่ยนแปลงในข้อมูล หรือสร้างความตระหนักรู้ว่าตัวอย่างที่เป็นปฏิปักษ์เข้าสู่สตรีมข้อมูล
การจัดการดริฟท์
ผู้ปฏิบัติงานสามารถประเมินการเคลื่อนตัวโดยการเปรียบเทียบอินพุตและเอาต์พุตของโมเดลระหว่างการปรับใช้จริงกับอินพุตและเอาต์พุตในชุดอ้างอิง ความคล้ายคลึงกันถูกวัดเป็นคู่ระหว่างการป้อนข้อมูลการทดสอบและการฝึกอบรม โดยแบ่งส่วนผลลัพธ์ออก โดยการรักษาความเข้าใจอย่างใกล้ชิดว่าอินพุตและเอาต์พุตเปลี่ยนแปลงอย่างไรเมื่อเทียบกับชุดอ้างอิง ผู้ปฏิบัติงานที่เป็นมนุษย์จึงอยู่ในตำแหน่งที่จะดำเนินการแก้ไข (เช่น ฝึกแบบจำลองใหม่)
การเรียนรู้อย่างต่อเนื่อง
สร้างเวิร์กโฟลว์การเรียนรู้อย่างต่อเนื่องเพื่อตรวจสอบประสิทธิภาพของโมเดลเทียบกับเกณฑ์ที่ยอมรับได้ที่กำหนดไว้ล่วงหน้า เกณฑ์เหล่านี้อาจรวมถึงการวัดความยืดหยุ่นของระบบที่ยังคงอยู่เมื่อเผชิญกับการรบกวนเล็กน้อย ตลอดจนข้อจำกัดด้านความปลอดภัยสำหรับระบบและสภาพแวดล้อมในการทำงาน ส่วนหนึ่งของสิ่งนี้ ให้คงรักษาเฟรมเวิร์กการควบคุมเวอร์ชันข้อมูลเพื่อให้สามารถตรวจสอบได้ ความโปร่งใส และความสามารถในการทำซ้ำของโมเดล AI
อยู่ระหว่างการทดสอบ
พัฒนาระบอบการทดสอบที่มีความแปรปรวน (เช่น การเปลี่ยนแปลงในระบบหรือข้อมูลการฝึกอบรม) เพื่อประเมินว่า AI แข็งแกร่งพอที่จะทำงานตามที่ตั้งใจหรือไม่ ความถี่ที่โมเดลได้รับการตรวจสอบความทนทานและความถูกต้องควรขึ้นอยู่กับลำดับความสำคัญของโมเดลและความถี่ที่โมเดลได้รับการอัปเดต อาจมีการตรวจสอบแบบจำลองที่มีความเสี่ยงสูงและอัปเดตเป็นประจำทุกวัน (ด้วยผลลัพธ์ที่ตรวจสอบโดยเจ้าหน้าที่) สามารถตรวจสอบโมเดลที่มีลำดับความสำคัญต่ำที่เปลี่ยนแปลงช้ากว่าได้บนไทม์ไลน์ที่ยาวขึ้น ในบางกรณีโดยใช้ API สำหรับการประเมินการทำงานอัตโนมัติ ผลของการตรวจสอบเหล่านี้ควรกระตุ้นให้มีการสอบสวนและแก้ไขข้อยกเว้น ความคลาดเคลื่อน และผลลัพธ์ที่ไม่ตั้งใจ
สำรวจแนวทางทางเลือก
เนื่องจากความทนทานและความสามารถในการสรุปรวมเป็นพื้นที่ของการวิจัยเชิงรุก เครื่องมือ การออกแบบ และยุทธวิธีใหม่ ๆ จะยังคงปรากฏให้เห็นและก้าวหน้าในสนามต่อไป สิ่งเหล่านี้น่าจะเป็นแนวทางทางเทคนิค และผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลขององค์กรอยู่ในตำแหน่งที่จะสำรวจว่าแนวคิดใหม่ๆ สามารถสนับสนุน AI ที่ปรับใช้ ตลอดจนการพัฒนาแบบจำลองได้อย่างไร ตัวอย่างเช่น “แบบจำลองที่มีข้อจำกัด Lipschitz” มีอนุพันธ์แบบผูกมัดที่สามารถช่วยให้โครงข่ายประสาทเทียม แข็งแกร่งขึ้นเมื่อเปรียบเทียบกับตัวอย่างที่เป็น ปฏิปักษ์ อย่างง่ายที่สุด พวกเขาส่งเสริมและสามารถรับรองว่าการรบกวนเล็กน้อยในการป้อนข้อมูลทำให้เกิดการเปลี่ยนแปลงเพียงเล็กน้อยในผลลัพธ์
โพสต์ 7 เทคนิคสำหรับการสร้างแบบจำลอง AI ที่เชื่อถือได้ ปรากฏตัวครั้งแรกใน อนาคต