ฉันไม่รู้วิธีแก้ปัญหาการฉีดพร้อมท์

9599?v=4&s=200

แนวคิดเพิ่มเติมบางประการเกี่ยวกับ การโจมตีแบบฉีด ทันทีต่อซอฟต์แวร์ที่สร้างขึ้นจากโมเดลภาษา AI เช่น GPT-3 โพสต์นี้เริ่มต้นจาก เธรด Twitter แต่ฉันกำลังโปรโมตให้เป็นรายการบล็อกแบบเต็มที่นี่

ยิ่งฉันนึกถึงการโจมตีแบบฉีดทันทีกับ GPT-3 ความสนุกของฉันก็ยิ่งกลายเป็นความกังวลอย่างแท้จริง

ฉันรู้วิธีเอาชนะ XSS และการฉีด SQL และการหาประโยชน์อื่น ๆ อีกมากมาย

ฉันไม่รู้ว่าจะเอาชนะการฉีดที่รวดเร็วอย่างน่าเชื่อถือได้อย่างไร!

ในฐานะวิศวกรที่ใส่ใจเรื่องความปลอดภัย เรื่องนี้ทำให้ฉันกังวลใจมาก ฉันตื่นเต้นกับศักยภาพในการสร้างสิ่งเจ๋งๆ เทียบกับโมเดลภาษาขนาดใหญ่

แต่ฉันต้องการความมั่นใจว่าสามารถรักษาความปลอดภัยได้ก่อนที่จะส่งซอฟต์แวร์ใดๆ ที่ใช้เทคโนโลยีนี้

ปัญหาใหญ่ที่นี่คือความพิสูจน์ได้ โมเดลภาษาเช่น GPT-3 เป็นกล่องดำที่ดีที่สุด ไม่สำคัญว่าฉันเขียนการทดสอบอัตโนมัติกี่ครั้ง ฉันไม่สามารถแน่ใจได้ 100% ว่าผู้ใช้จะไม่สร้างโครงสร้างทางไวยากรณ์บางอย่างที่ฉันไม่ได้คาดการณ์ไว้ว่าจะล้มล้างการป้องกันของฉัน

และในกรณีที่คุณคิดว่าการโจมตีเหล่านี้ยังคงเป็นทฤษฎี เมื่อวานนี้ได้ให้ ตัวอย่างที่สวยงามของการโจมตีแบบฉีด ทันทีที่ใช้กับบอท Twitter ในป่า

นอกจากนี้ยังแสดงให้เห็นถึงความแพร่หลายของพวกเขา ฉีดจู่โจมก็สนุก! และคุณไม่จำเป็นต้องเป็นโปรแกรมเมอร์เพื่อดำเนินการ: คุณต้องสามารถพิมพ์การหาช่องโหว่ในภาษาอังกฤษธรรมดา และปรับตัวอย่างที่คุณเห็นว่าทำงานจากผู้อื่นได้

@glyph ไม่ใช่เรื่องเหลวไหล เมื่อพูดถึงวิศวกรรมความปลอดภัย:

ฉันไม่คิดว่าจะมี การบรรเทาปัญหาเหล่านั้นมีอยู่เพราะเป็นข้อผิดพลาดทางวากยสัมพันธ์ที่ผู้คนสร้างขึ้น แก้ไขไวยากรณ์และคุณได้แก้ไขข้อผิดพลาดแล้ว ฉีดด่วนไม่มีพลาด! ไม่มีรูปแบบที่เป็นทางการสำหรับ AI แบบนี้ นั่นคือประเด็นทั้งหมด

มีหลายสิ่งที่คุณสามารถพยายามบรรเทาช่องโหว่เหล่านี้ได้ โดยใช้กฎเพื่อประเมินอินพุตเพื่อตรวจสอบรูปแบบที่อาจเป็นอันตราย

แต่ฉันไม่คิดว่าวิธีการใด ๆ เหล่านี้สามารถบรรลุความมั่นใจ 100% ว่าข้อมูลที่ไม่คาดคิดอาจแอบผ่านพวกเขาอย่างใด!

หากฉันมีการป้องกัน XSS หรือการฉีด SQL ที่ทำงาน 99% ของกรณีทั้งหมด จะใช้เวลาเพียงไม่นานก่อนที่จะมีคนหาช่องโหว่ที่แอบผ่าน

และด้วยการฉีดยาอย่างรวดเร็ว ใครก็ตามที่สามารถสร้างประโยคในภาษามนุษย์บางภาษาได้ (ไม่จำกัดเฉพาะภาษาอังกฤษ) ก็อาจเป็นผู้โจมตี / นักวิจัยด้านช่องโหว่!

อีกเหตุผลหนึ่งที่น่ากังวล: สมมติว่าคุณสร้างข้อความแจ้งอย่างระมัดระวังซึ่งคุณเชื่อว่าปลอดภัย 100% จากการโจมตีแบบฉีดทันที (และอีกครั้ง ฉันไม่แน่ใจเลยว่าจะเป็นไปได้)

จะเกิดอะไรขึ้นถ้าคุณต้องการเรียกใช้กับรุ่นภาษาที่คุณใช้อยู่?

ทุกครั้งที่คุณอัปเกรดโมเดลภาษาของคุณ คุณต้องเริ่มต้นจากศูนย์ในการลดปัญหาเหล่านั้นอย่างมีประสิทธิภาพ เพราะใครจะรู้ว่ารูปแบบใหม่นั้นจะมีวิธีใหม่ในการตีความข้อความแจ้งที่เปิดช่องโหว่ใหม่ๆ หรือไม่

ฉัน ยังคงหวัง ว่าผู้ให้บริการโมเดล AI สามารถแก้ปัญหานี้ได้โดยแยกระหว่างข้อความแจ้ง “คำสั่งสอน” และข้อความแจ้ง “การป้อนข้อมูลของผู้ใช้” อย่างชัดเจน แต่ฉันอยากเห็นการวิจัยอย่างเป็นทางการที่พิสูจน์ว่าสิ่งนี้สามารถป้องกันการโจมตีเหล่านี้ได้อย่างแข็งแกร่ง

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น