VUI Guide

Голосовые пользовательские интерфейсы (VUI) — руководство для дизайнера

Основы, которые позволяют нам общаться с нашими устройствами

“Поставь мой будильник на 7:15 утра”.

— “Хорошо, звоню Сельме Мартин”.

“Нет! Поставь мой будильник на 7:15 утра”.

— “Мне очень жаль. Я не могу тебе в этом помочь.

“Вздох” * Ручная установка будильника *

Наши голоса разнообразны, сложны и изменчивы. Голосовые команды еще сложнее обрабатывать — даже между людьми, не говоря уже о компьютерах. То, как мы формулируем наши мысли, то, как мы общаемся в культурном плане, то, как мы используем сленг и выводим смысл… все эти нюансы влияют на интерпретацию и понятность наших слов.

Итак, как дизайнеры и инженеры решают эту проблему? Как мы можем развивать доверие между пользователем и ИИ? Здесь в игру вступают VUI.

Голосовые пользовательские интерфейсы (VUI) - это основные или дополнительные визуальные, слуховые и тактильные интерфейсы, которые обеспечивают голосовое взаимодействие между людьми и устройствами. Проще говоря, VUI может быть чем угодно, от лампочки, которая мигает, когда слышит ваш голос, до развлекательной консоли автомобиля. Имейте в виду, что VUI не обязательно должен иметь визуальный интерфейс — он может быть полностью слуховым или тактильным (например, вибрация).

Голосовые пользовательские интерфейсы (VUI) - это основные или дополнительные визуальные, слуховые и тактильные интерфейсы, которые обеспечивают голосовое взаимодействие между людьми и устройствами.

Несмотря на то, что существует широкий спектр VUI, все они имеют набор общих основ UX, которые определяют удобство использования. Мы изучим эти основы, чтобы вы, как пользователь, могли анализировать свои повседневные взаимодействия с VUI, а как дизайнер — создавать лучшие возможности.

Обнаружение — ограничения, зависимости, варианты использования

То, как мы взаимодействуем с нашим миром, в значительной степени определяется нашими технологическими, экологическими и социологическими ограничениями. Скорость, с которой мы можем обрабатывать информацию, точность, с которой мы можем преобразовать эти данные в действие, язык / диалект, который мы используем для передачи этих данных, и получатель этого действия (будь то мы сами или кто-то другой).

Прежде чем мы погрузимся в наш интерактивный дизайн, мы должны сначала определить контекст окружающей среды, который формирует голосовое взаимодействие.

Определите жанр устройства

Тип устройства влияет на режимы и входные сигналы, которые определяют спектр и объем голосового взаимодействия.

Телефоны

  • Айфоны, пиксели, галактики

  • Возможности подключения — сотовые сети, Wi-Fi, сопряженные устройства

  • Контекст окружающей среды оказывает существенное влияние на интерактивность голоса

  • Пользователи привыкли использовать голосовое взаимодействие

  • Позволяет взаимодействовать с помощью визуальной, слуховой и тактильной обратной связи

  • Методы взаимодействия достаточно стандартизированы для разных моделей

Носимые устройства

  • Конкретные варианты использования и, как правило, ориентированы на конкретные варианты использования, такие как часы, браслет для фитнеса или умная обувь

  • Возможности подключения — сотовые сети, Wi-Fi, сопряженные устройства

  • Пользователи могут привыкнуть к использованию голосового взаимодействия, но это взаимодействие не является стандартным для разных устройств

  • Некоторые носимые устройства позволяют взаимодействовать с помощью визуальной, слуховой и тактильной обратной связи, хотя некоторые из них более пассивны и не требуют явного взаимодействия с пользователем

  • Обычно взаимодействие с пользователем и использование данных зависят от подключенных устройств

Стационарные подключенные устройства

  • Настольные компьютеры, бытовая техника с экранами, термостаты, концентраторы для умного дома, звуковые системы, телевизоры

  • Подключение — проводные сети, Wi-Fi, сопряженные устройства

  • Пользователи привыкли использовать эти устройства в одном и том же месте и в одной и той же обстановке на обычной основе

  • Квазистандартизированные методы голосового взаимодействия между устройствами схожих жанров (настольные компьютеры против подключенных хабов, таких как Google Home / Amazon Alexa против интеллектуальных термостатов).

Нестационарные вычислительные устройства (не телефоны)

  • Ноутбуки, планшеты, транспондеры, автомобильные информационно-развлекательные системы

  • Подключение — Беспроводные сети, проводные сети (не обычные), Wi-Fi, сопряженные устройства

  • Основной режим ввода обычно не голосовой

  • Контекст окружающей среды оказывает существенное влияние на интерактивность голоса

  • Обычно имеют нестандартные методы голосового взаимодействия между жанрами устройств

Создайте матрицу вариантов использования

Каковы основные, вторичные и третичные варианты использования голосового взаимодействия? Есть ли у устройства один основной вариант использования (например, фитнес-трекер)? Или это эклектичное сочетание вариантов использования (например, смартфон)?

Очень важно создать матрицу вариантов использования, которая поможет вам определить, почему пользователи взаимодействуют с устройством. Каков их основной способ взаимодействия? Что вторично? Что такое удобный режим взаимодействия и что важно?

Вы можете создать матрицу вариантов использования для каждого способа взаимодействия. В применении к голосовому взаимодействию матрица поможет вам понять, как ваши пользователи в настоящее время используют или хотят использовать голос для взаимодействия с продуктом, в том числе где они будут использовать голосовой помощник:

Ранжируйте способы взаимодействия

Если вы используете исследование пользователей для информирования о своих вариантах использования (либо об использовании, либо о количественном / качественном исследовании), тогда важно квалифицировать ваш анализ, упорядочив ранжирование перспективных режимов взаимодействия.

Если кто-то говорит вам: “Боже, было бы так здорово, если бы я мог поговорить со своим телевизором и попросить его переключить канал”, тогда вам действительно нужно копать глубже. Будут ли они действительно использовать это? Понимают ли они ограничения? Действительно ли они понимают свою склонность к использованию этой функции?

Как дизайнер, вы должны понимать своих пользователей лучше, чем они понимают самих себя.

Вы должны подвергнуть сомнению вероятность того, что они будут использовать определенный способ взаимодействия, учитывая их доступ к альтернативам.

Допустим, мы проверяем, будет ли пользователь использовать голосовые команды для взаимодействия со своим телевизором. В этом случае можно с уверенностью предположить, что голосовое взаимодействие является одним из многих возможных типов взаимодействия.

Пользователь имеет доступ к множеству альтернативных средств взаимодействия: пульт дистанционного управления, сопряженный смартфон, игровой контроллер или подключенное устройство Интернета вещей. Поэтому голос не обязательно становится режимом взаимодействия по умолчанию. Это один из многих.

Итак, возникает вопрос: какова вероятность того, что пользователь будет полагаться на голосовое взаимодействие в качестве основного средства взаимодействия? Если не первично, то будет ли это вторично? Третичный? Это позволит уточнить ваши предположения и гипотезы UX в будущем.

Перечислите технологические ограничения

Воплощение наших слов в действия - чрезвычайно сложная технологическая задача. Благодаря неограниченному времени, возможностям подключения и обучению хорошо настроенный вычислительный движок может эффективно воспринимать нашу речь и запускать соответствующие действия.

К сожалению, мы живем в мире, где у нас нет неограниченного подключения (т. Е. вездесущего гигабитного Интернета), и у нас нет неограниченного времени. Мы хотим, чтобы наши голосовые взаимодействия были такими же мгновенными, как и традиционные альтернативы: визуальные и сенсорные, хотя голосовые движки требуют сложной обработки и прогнозного моделирования.

Вот несколько примеров потоков, которые демонстрируют, что должно произойти, чтобы наша речь была распознана:

Как мы видим ... существует множество моделей, которые необходимо постоянно обучать работе с нашей лексикой, акцентами, переменными тонами и многим другим.

Каждая платформа распознавания голоса имеет уникальный набор технологических ограничений. Крайне важно, чтобы вы учитывали эти ограничения при проектировании UX голосового взаимодействия.

Проанализируйте следующие категории:

  • Уровень подключения — всегда ли устройство будет подключено к Интернету?

  • Скорость обработки — нужно ли пользователю обрабатывать свою речь в режиме реального времени?

  • Точность обработки — каким будет компромисс между точностью и скоростью?

  • Речевые модели — насколько хорошо обучены наши текущие модели? Смогут ли они точно обрабатывать полные предложения или только короткие слова?

  • Запасные варианты — каковы технологические резервные варианты, если речь не может быть распознана? Может ли пользователь использовать другой способ взаимодействия?

  • Последствия неточности — приведет ли неправильно обработанная команда к необратимому действию? Достаточно ли развит наш механизм распознавания голоса, чтобы избежать серьезных ошибок?

  • Тестирование в условиях окружающей среды — был ли движок voice протестирован в нескольких условиях окружающей среды? Например, если я создаю автомобильную информационно-развлекательную систему, я буду ожидать гораздо большего фонового шума, чем интеллектуальный термостат.

Нелинейность

Кроме того, мы также должны учитывать, что пользователь может взаимодействовать с устройством нелинейным образом. Например, если я хочу забронировать билет на самолет на веб-сайте, я вынужден следить за потоком информации на веб-сайте: выберите пункт назначения, выберите дату, выберите количество билетов, посмотрите варианты и т. Д…

Но у VUI есть более сложная задача. Пользователь может сказать: “Мы хотим полететь в Сан-Франциско бизнес-классом”. Теперь VUI должен извлечь всю необходимую информацию от пользователя, чтобы использовать существующие API бронирования авиабилетов. Логический порядок может быть искажен, поэтому VUI несет ответственность за извлечение соответствующей информации (с помощью голосовых или визуальных дополнений) от пользователя.

Голосовой ввод UX

Теперь, когда мы изучили наши ограничения, зависимости и варианты использования, мы можем начать немного глубже погружаться в реальный голосовой интерфейс. Сначала мы рассмотрим, как устройства узнают, когда нас слушать.

Для некоторого дополнительного контекста приведенная ниже диаграмма иллюстрирует базовый поток голосового потока:

Которое проявляется как…

Триггеры

Существует четыре типа триггеров голосового ввода:

  • Голосовой триггер — пользователь произносит фразу, которая предложит устройству начать обработку речи (“Ok Google”)

  • Тактильный триггер — нажатие кнопки (физической или цифровой) или переключение элемента управления (например, значок микрофона)

  • Запуск движения — взмах рукой перед датчиком

  • Самозапуск устройства - событие или предопределенная настройка активирует устройство (автомобильная авария или напоминание о задаче, запрашивающее ваше подтверждение)

Как дизайнер, вы должны понимать, какие триггеры будут иметь отношение к вашим вариантам использования; и упорядочить эти триггеры от вероятных релевантных до нерелевантных.

Ведущая реплика

Как правило, когда устройство запускается для прослушивания, появляется звуковой, визуальный или тактильный сигнал.

Эти подсказки должны соответствовать следующим принципам удобства использования:

  • Немедленный — после соответствующего триггера сигнал должен запрашиваться как можно быстрее, даже если это означает прерывание текущего действия (при условии, что прерывание этого действия не является разрушительным).

  • Краткий и кратковременный — сигнал должен быть почти мгновенным, особенно для привычно используемых устройств. Например, два утвердительных звуковых сигнала более эффективны, чем "Хорошо, Джастин, что бы ты хотел, чтобы я сейчас сделал?’ Чем длиннее начальная реплика, тем больше вероятность того, что слова вашего пользователя будут конфликтовать с подсказкой устройства. Этот принцип также применим к визуальным подсказкам. Экран должен немедленно перейти в состояние прослушивания.

  • Понятное начало — пользователь должен точно знать, когда начинается запись его голоса.

  • Согласованный — подсказка всегда должна быть одинаковой. Различия в звуковых или визуальных отзывах приведут пользователей в замешательство.

  • Отчетливый — сигнал должен отличаться от обычных звуков и визуальных эффектов устройства и никогда не должен использоваться или повторяться в каком—либо другом контексте.

  • Дополнительные сигналы — по возможности используйте несколько интерактивных сред для отображения сигнала (например, два звуковых сигнала, изменение освещения и диалог на экране).

  • Начальная подсказка — для пользователей, которые работают впервые, или когда кажется, что пользователь застрял, вы можете отобразить начальную подсказку или предложения для облегчения голосовой связи.

Обратная связь UX

Обратная связь имеет решающее значение для успешного использования голосового интерфейса. Это позволяет пользователям получать последовательное и немедленное подтверждение того, что их слова воспринимаются и обрабатываются устройством. Обратная связь также позволяет пользователям предпринимать корректирующие или позитивные действия.

Вот несколько принципов UX, которые обеспечивают эффективную обратную связь с VUI:

  • Визуальные эффекты в реальном времени - эта визуальная обратная связь наиболее распространена в собственных голосовых устройствах (например, телефонах). Это создает немедленную когнитивную обратную связь по нескольким параметрам звука: высоте, тембру, интенсивности и продолжительности, которые могут быстро изменять цвета и узоры в режиме реального времени.

  • Воспроизведение звука — простое воспроизведение для подтверждения интерпретации речи

  • Текст в реальном времени - текстовая обратная связь будет постепенно появляться в режиме реального времени по мере того, как пользователь говорит

  • Выводимый текст — текстовая обратная связь, которая преобразуется и корректируется после того, как пользователь закончил говорить. Думайте об этом как о первом уровне корректирующей обработки, прежде чем звук будет подтвержден или переведен в действие.

  • Визуальные подсказки вне экрана (свет, световые узоры) — упомянутые выше адаптивные визуальные эффекты не ограничиваются только цифровыми экранами. Эти адаптивные шаблоны могут также проявляться в простых светодиодных лампах или световых узорах.

Окончание реплики

Этот сигнал означает, что устройство перестало слушать голос пользователя и начнет обрабатывать команду. Многие из тех же принципов "ведущей подсказки" применимы к конечной подсказке (немедленная, краткая, четкая, последовательная и четкая).). Тем не менее, применяются несколько дополнительных принципов:

  • Достаточное время — убедитесь, что пользователю было предоставлено достаточное время для выполнения своей команды.

  • Адаптивное время — выделенное время должно адаптироваться к варианту использования и ожидаемому ответу. Например, если пользователю задали вопрос “Да” или “Нет”, то в конце реплики следует ожидать разумной паузы после одного слога.

  • Разумная пауза — прошло ли разумное время с момента последней записи звука? Это очень сложно рассчитать, но также контекстуально зависит от варианта использования взаимодействия,

Разговорный UX

Простые команды, такие как “Включить будильник”, не обязательно требуют длительного разговора, но более сложные команды требуют. В отличие от традиционного взаимодействия человека с человеком, взаимодействие человека с ИИ требует дополнительных уровней подтверждения, дублирования и исправления.

Более сложные команды или повторяющийся диалог обычно требуют нескольких уровней проверки речи / параметров для обеспечения точности. Еще больше усложняет ситуацию то, что пользователь часто не уверен, что спросить или как попросить об этом. Таким образом, задачей VUI становится расшифровка сообщения и предоставление пользователю дополнительного контекста.

  • Утвердительный ответ — когда ИИ понимает речь, он должен ответить утвердительным сообщением, которое также подтверждает речь. Например, вместо того, чтобы сказать “Конечно”, ИИ может сказать “Конечно, я выключу свет” или “Вы уверены, что хотите, чтобы я выключил свет?”

  • Корректирующий — когда ИИ не может расшифровать намерения пользователя, он должен ответить корректирующим вариантом. Это позволяет пользователю выбрать другой вариант или полностью перезапустить разговор.

  • Эмпатичный — когда ИИ не может выполнить запрос пользователя, он должен взять на себя ответственность за отсутствие понимания, а затем предоставить пользователю корректирующие действия. Эмпатия важна для установления более представительных отношений.

Антропоморфизированный UX

Придание голосовому взаимодействию человеческих черт создает связь между человеком и устройством. Эта антропоморфизация может проявляться по-разному: световые узоры, формы, которые подпрыгивают, абстрактные сферические узоры, сгенерированный компьютером голос и звуки.

Антропоморфизм - это приписывание человеческих черт, эмоций или намерений нечеловеческим существам.

Эти отношения создают более тесную связь между пользователем и машиной, которая также может распространяться на продукты с аналогичными операционными платформами (например, Помощник Google, Alexa от Amazon и Siri от Apple).

  • Личность — привносит дополнительное измерение во взаимодействие, позволяя виртуальной личности общаться и сопереживать пользователю. Это помогает смягчить негативные последствия неправильно обработанной речи.

  • Позитивность — Общая позитивность поощряет повторное взаимодействие и утвердительный тон.

  • Уверенность и доверие — Поощряет дополнительное взаимодействие и сложные разговоры, потому что пользователь получает дополнительную уверенность в том, что результат будет положительным и добавит ценности.

Сквозной интерфейс движения

Голосовые взаимодействия должны быть плавными и динамичными. Когда мы общаемся друг с другом лично, мы обычно используем множество выражений лица, изменений тона, языка тела и движений. Задача состоит в том, чтобы запечатлеть это плавное взаимодействие в оцифрованной среде.

Когда это возможно, весь процесс голосового взаимодействия должен ощущаться как полезное взаимодействие. Конечно, более мимолетные взаимодействия, такие как “Выключите свет”, не обязательно требуют полноценного взаимодействия. Однако любой вид более активного взаимодействия, например приготовление пищи с цифровым помощником, требует длительного разговора.

Эффективное управление голосом выиграет от следующих принципов:

  • Переходный — плавно обрабатывает переходы между различными состояниями. Пользователь должен чувствовать, что он никогда не ждет, а скорее что помощник работает на него.

  • Яркий—яркий цвет передает восторг и футуризм. Это придает взаимодействию элемент футуристической элегантности, что способствует повторному взаимодействию.

  • Отзывчивый — реагирует на вводимые пользователем данные и жесты. Дает подсказки относительно того, какие слова обрабатываются, и позволяет пользователю видеть, точно ли обрабатывается их речь / намерение.

Заключение и ресурсы

VUI - чрезвычайно сложная, многогранная и часто гибридная смесь взаимодействия. На самом деле, на самом деле не существует всеобъемлющего определения. Важно помнить, что все более оцифрованный мир означает, что мы, возможно, на самом деле проводим больше времени с нашими устройствами, чем друг с другом. Станут ли VUI в конечном итоге нашим основным средством взаимодействия с нашим миром? Посмотрим.

В то же время, вы хотите создать VUI мирового класса? Вот несколько полезных ресурсов:

Last updated