Содержание:
  1. Что является ключевым фактором для создания правдоподобного диалога между ИИ и человеком
  2. Какие характерные особенности и "слабые места" помогают отличить ИИ от человеческого голоса
  3. Как искусственный интеллект адаптируется к изменению темы или настроения в разговоре

Синтезаторы речи на основе искусственного интеллекта теперь могут вести реальные разговоры, расставлять акценты, шептать и даже "клонировать" голоса других людей. LIGA.Life разбирается вместе с экспертом, что помогает отличить искусственный интеллект от человеческого голоса во время телефонного разговора, как именно ИИ анализирует голос человека, а также как распознать, что это не настоящий собеседник.

Чат-боты работают на основе больших языковых моделей, чтобы отвечать и общаться гораздо естественнее и убедительнее. Например, голосовая функция ChatGPT в настоящее время может отвечать, используя вариации тона и ударение на определенных словах настолько похоже, как если бы человек передавал сочувствие и эмоции. ИИ также может улавливать невербальные сигналы, такие как вздохи и рыдания, говорить на 50 языках и способен передавать акценты. Искусственный интеллект может даже совершать телефонные звонки от имени пользователей, чтобы помочь с задачами — например, во время одной демонстрации система OpenAI заказала клубнику у продавца. Об этом пишет BBC. В некоторых случаях эта технология используется для мошенничества, чтобы обманом заставить людей передать деньги преступникам.

Кроме того, недавно голос Дэвида Аттенборо, телеведущего-естествоиспытателя и кинопродюсера, "клонировали" в телепрограмме. Ситуация возникла, когда BBC News опубликовали материал, используя озвучивание из последнего сериала BBC Аттенборо "Азия". В ролике он говорит: "Если вы думаете, что видели лучшее, что может предложить мир природы, подумайте еще раз. Больше нигде на Земле нет столько нерассказанных историй. Тогда добро пожаловать в Азию". BBC показало тот же видеоролик и спросило зрителей, слышат ли они какие-то отличия. Как результат: они звучали почти одинаково, но второй был создан искусственным интеллектом посредством перехвата интонаций. Сообщается, что ИИ-голос используется в новостях на каналах YouTube, таких как The Intellectualist, о материалах войны России против Украины и новостях о Дональде Трампе.

Это не первый подобный случай. ИИ был одним из самых актуальных вопросов во время забастовок сценаристов и актеров. А в начале этого года голос OpenAI под названием Sky был удален после запуска, из-за того что актриса Скарлетт Йоханссон отметила сходство с ее голосом. Она обнародовала заявление, в котором говорится, что основатель OpenAI Сэм Альтман обратился к ней относительно использования ее голоса, и компания продвинулась с планом, несмотря на то что Йоханссон отклонила предложение. Она добавила, что голос был удален компанией, лишь когда возникла угроза судебного иска.

Что является ключевым фактором для создания правдоподобного диалога между ИИ и человеком

Для создания подлинного правдоподобного диалога нужны значительные инвестиции в разработку технологий и адаптацию к каждому языку, комментирует Алексей Скрипка, основатель компании EVE.calls, создавшей голосового чат-робота. Особенно сложно добиться естественности в произвольных темах разговора. Наилучший результат достигается в узкоспециализированных сценариях, где роботы могут использовать четко ограниченную базу знаний и иметь предзаписанные и озвученные сценарии.

Синтезаторы голоса и человеческая идентичность: способен ли ИИ имитировать эмоции
Фото: Freepik

Эксперт отмечает, что в бизнесе, в зависимости от задач, используют два подхода:

Разблокируйте чтобы читать дальше
Чтобы прочитать этот текст, пожалуйста, оформите подписку