تقلید بدون نقص صدای انسان/ هوش مصنوعی می‌تواند مردم را فریب دهد

دیپ فیک‌های تولیدشده توسط هوش مصنوعی در حال توسعه هستند و می‌توانند بدون حفظ تفاوت‌های ظریف گفتاری که ممکن است برای شنوندگان ترسناک باشد صدای طبیعی انسان را تقلید می‌کنند.

کد خبر : 861777

به گزارش خبرنگار خبرگزاری علم و فناوری آنا،‌ آیا می‌توانید تشخیص دهید صدایی که هم‌اکنون به گوش شما رسید تولیدشده توسط هوش مصنوعی بوده یا خیر؟ حتی زمانی که افراد می‌دانند ممکن است به گفتار تولیدشده توسط هوش مصنوعی گوش دهند، بازهم تشخیص قابل‌اعتماد صدای دیپ فیک برای هر دو زبان انگلیسی و چینی دشوار است. این بدان معناست که میلیارد‌ها نفر از افرادی که زبان‌های رایج دنیا را درک می‌کنند، به‌طور بالقوه در معرض خطر کلاهبرداری یا اطلاعات نادرست قرار دارند.

کیمبرلی مای در یونیورسیتی کالج لندن و همکارانش بیش از ۵۰۰ نفر را برای شناسایی دیپ فیک‌های گفتاری در میان چندین کلیپ صوتی به چالش کشیدند. برخی کلیپ‌ها حاوی صدای اصیل یک گوینده زن بودند که جملات عمومی را به زبان انگلیسی یا ماندارین می‌خواند، درحالی‌که برخی دیگر دیپ فیک‌هایی بودند که توسط هوش مصنوعی مولد آموزش‌دیده بر روی صدای زنان ایجادشده بودند.

شرکت‌کنندگان در این مطالعه به‌طور تصادفی در دو چیدمان آزمایشی مختلف قرار گرفتند. یک گروه به ۲۰ نمونه صدا به زبان مادری خود گوش دادند و باید تصمیم می‌گرفتند که آیا کلیپ‌ها واقعی هستند یا جعلی.

مردم به‌درستی دیپ فیک‌ها و صدا‌های معتبر را در حدود ۷۰ درصد مواقع برای هر دو نمونه صدای انگلیسی و ماندارین طبقه‌بندی کردند. این موضوع نشان می‌دهد که تشخیص دیپ فیک توسط انسان در زندگی واقعی احتمالاً حتی از این هم بدتر خواهد بود چراکه اغلب افراد لزوماً از قبل نمی‌دانند که ممکن است گفتار تولیدشده توسط هوش مصنوعی را بشنوند.

به گروه دوم ۲۰ جفت کلیپ صوتی به‌طور تصادفی داده شد. هردوی آن‌ها یک جمله را نشان می‌دادند که توسط یک انسان و یک دیپ فیک گفته می‌شد و از شرکت‌کنندگان خواسته می‌شد تا جعلی بودن آن را اعلام کنند. این کار دقت تشخیص را به بیش از ۸۵ درصد افزایش داد اگرچه تیم تائید کرد که این سناریو مزیت غیرواقعی به شنوندگان می‌دهد.

مای می‌گوید: این چیدمان کاملاً نماینده سناریو‌های زندگی واقعی نیست به شنوندگان از قبل گفته نمی‌شود که آیا آنچه گوش می‌دهند واقعی است یا نه، و عواملی مانند جنسیت و سن گوینده می‌تواند بر عملکرد تشخیص تأثیر بگذارد.

هانی فرید در دانشگاه کالیفرنیا، برکلی می‌گوید: این مطالعه همچنین شنوندگان را به چالش نکشید تا تشخیص دهند که آیا دیپ فیک‌ها مانند فرد هدف تقلید می‌شوند یا خیر. شناسایی صدای معتبر بلندگو‌های خاص در سناریو‌های واقعی مهم است کلاهبرداران صدای رهبران کسب‌وکار را برای فریب کارمندان برای انتقال پول شبیه‌سازی کرده‌اند و کمپین‌های اطلاع‌رسانی نادرست، صدای سیاستمداران شناخته‌شده را در شبکه‌های اجتماعی آپلود کرده‌اند.

بااین‌حال، فرید چنین تحقیقی را کمک به ارزیابی این موضوع توصیف کرد که دیپ فیک‌های تولیدشده توسط هوش مصنوعی در حال حرکت در دره‌ای عجیب هستند و بدون حفظ تفاوت‌های ظریف گفتاری که ممکن است برای شنوندگان ترسناک باشد صدای طبیعی انسان را تقلید می‌کنند.

وی گفت: این مطالعه پایه‌ای مفید برای سیستم‌های تشخیص خودکار جعل عمیق فراهم می‌کند.

وی در ادامه با اشاره به اینکه تلاش‌های بیشتر برای آموزش شرکت‌کنندگان برای بهبود تشخیص دیپ فیک عموماً با شکست مواجه شد ادامه داد: این نشان می‌دهد که توسعه ردیاب‌های دیپ فیک مبتنی بر هوش مصنوعی مهم است. او و همکارانش به دنبال آزمایش این موضوع هستند که آیا مدل‌های زبانی بزرگ باقابلیت پردازش داده‌های گفتاری می‌توانند این کار را انجام دهند یا خیر.

انتهای پیام/