Кібербезпека голосових даних

17 min readApr 2, 2022

Про специфіку цифрової обробки голосу, щоб розуміти як зменшити ризики шахрайства. Про різницю між голосовим управлінням та розпізнаванням голосу та мовлення. Про кібербезпеку — безпеку голосових даних в Інтернеті, суб’єктивні перестороги щодо надсилання звукових повідомлень та збереження їх в Інтернеті.

Деякі нюанси кібербезпеки я вже частково згадував в попередніх статтях:

Фінансова кібербезпека (від 26-Бер-2022)
Правила інформаційного життя під час війни (від 21-Бер-2022),
Cyber Security Notes (від 4-Бер-2022)

Фактично стаття створилась майже автоматично після постів в Фейсбуці (пост 1, пост 2) де я коротко зачепив тематику. А потім ще було дуже коротке інтерв’ю для ТБ Галичина. Тому в цій статті я вже детальніше зупинюсь на питаннях безпеки голосових даних.

#БереженогоАндрійБереже.

TL;DR

суб’єктивні поради для початку:

Якщо вам НЕ треба Інтернету на телефоні чи комп’ютері НЕ використовуйте — ВІДКЛЮЧАЙТЕсь від Інтернету принаймні на якийсь час.
НЕ ГОВОРІТЬ вголос інформацію біля пристроїв підключених до Інтернету. Інформація потенційно може бути потрапити до ворога !!! Відключіть Інтернет, а тоді говоріть що заманеться.
Якщо ви advanced user, відключіть будь-яку обробку вхідного звуку та доступ до мікрофону на iOS / Android / MacOS / Windows.
По можливості НЕ ПЕРЕДАВАЙТЕ голосові повідомлення в Інтернет посередництвом Інстаграму, ТікТоку, Фейсбуку, Гугл чи Телеграму. Якщо і вислали, то видаліть після того, як отримувач підтвердив, що прослухав.

А тепер детальніше…

Різні компанії програмного забезпечення називають голосові технології по-своєму. Різні операційні системи по-різному називають навіть дуже подібні програми. Але загалом є декілька напрямів, які важливо розрізняти, і я їх згрупував по потенційному ризику шахрайства (суб’єктивна точка зору, в якій мірі упереджена).

Група потенційного ризику шахрайства

Голосові повідомлення для голосової пошти. Наскільки мені відомо, то технологія проста — повідомлення це попередньо вами записані звукові файли оффлайн, які ви висилаєте онлайн через Інтернет (чи GSM канали для голосової пошти) вашим отримувачам. Мені не відомо чи там є якісь додаткові технології обробки даних.
Голосові повідомлення в соц. мережах (Instagram, Viber, Telegram, WhatsApp, Messenger). Також вважають простими звуковими файлами, які можуть бути вами записані оффлайн). А от вже ті файли передаються онлайн через Інтернет до отримувачів. Але там я НЕ очікую складної технології обробки чи перетворення даних.
Розпізнавання мовлення, з голосу в текст. Це коли ваш голос спочатку обробляється цифрово онлайн на серверах відповідних програм, а це означає, що потрібен Інтернет. У відповідь програма може отримати з сервера трансформований текст, або інші дані, залежно від програми. Наприклад Перекладач поверне текст, а Google пошук пришле список посилань чи інформацію про ресторан з фотографіями.
Приклади: Dictation, Speech Recognition (Google Translate, Apple Siri, Amazon Alexa, Viber, etc.)
Клонування голосу. Поки що для пересічних людей, нічого в телефонах мені подібного невідомо. За винятком чат ботів, які вже говорять чиїмось клонованим голосом (не нанчитка особою фраз, а реально клонований цифровий голос посередництвом Штучного Інтелекту). Це поки що найбільш “футуристична” тема.
Приклади: Voice Cloning, VocaliD

Група відносно безпечних методів

Голосове управління. Це коли ваша голосова фраза використовується як “команда” для управління телефоном чи комп’ютером. На початку, при потребі додаткової мови, її треба завантажити онлайн з Інтернету — це своєрідні заготовлені шаблони (пркилади) звуку. І вже потім в процесі використання не потрібно Інтернету і управління може відбуватись оффлайн (комп’ютер/телефон порівнює шаблони звуку із версією команди вашим голосом. Такий метод НЕ передає ваші фактичні голосові дані в Інтернет, але якщо і передає то тільки мінімально технічні дані.
Приклади: Voice Control
Голосові інструменти-помічники (без використання фактичного голосу користувача). Ці методи (програмки) корисні в першу чергу людям з обмеженими можливостями. Такі програмки “читають” і “дивляться” все, що на екрані комп’ютера чи телефону і озвучують для користувача. Певні дані треба завантажити онлайн, і більшості випадків такі програмки працюють офлайн. Але при потребі користуванні Інтернету, вони вже будуть в режимі онлайн. Але не повинні передавати ваші голосові дані.
Приклади: Sound Recognition, Speech Speaking, Voice Over.

Я вважаю, що особливо в ці воєнні дні, саме онлайн методи мають ризик потенційного перехоплення даних шахраями. І в цій статті, я якраз хочу пояснити де я бачу ті ризики, хочу поділитись порадами, щоб принаймні зменшити ризики шахрайства.

Розпізнавання мовлення, з голосу в текст

Voice / Speech Recognition

це більш широке поняття, термін, технологія розпізнавання мови, мовлення, розмови, цілих речень

онлайн

Я вже не пам’ятаю, коли ця функціональність появилась в телефонах та комп’ютерах, але точно більше ніж 5 років тому. Ця технологія використовується в багатьох програмках і про деякі якраз нижче описую.

Dictation (диктування)

функціональність на MacOS/iOS для диктування (надиктовки) інформації голосом з трансформацію в текст на серверах Apple
онлайн

Функція «Удосконалення Siri й Диктування» дає Apple змогу зберігати аудіовзаємодії із Siri, Диктуванням і Перекладом. Більше тут.

В більшості випадків потребує Інтернету, адже алгоритми перетворення не завжди здатні запуститись на простих телефонах чи компютерах.

Для прикладу, на Mac OS, пробуючи надиктувати інформацію без Інтернету, функціональність просто не включається. Але коли Інтернет включений, то можна починати “говорити з своїм комп'ютером” :) А технічні алгоритми з серверів в Інтернеті повернуть тільки текст.

Технічно припускаючи, якщо ви підключені до НЕнадійного WiFi то голосова інформація може бути перехоплена шахраями, диверсантами.

Тому щоб убезпечити себе, в першу чергу знайте як ви підключені до Інтернету. При можливості встановіть платний VPN. А якщо можете, то утримайтесь від передачі будь-яких голосових повідомлень цими днями в Інтернет.

Налаштування Dicating MacOS:

Налаштування Dicating iOS:

Цікаво, що Диктування в мене була довший час включена, і інформація про завантаження даних виглядає трохи інакше як після викл/вкл — з'явився змінений текст.

Більше про диктування в Apple (Siri, Dictation) — тут.

Тобто надиктовуючи український чи російський текст про воєнні події, інформація в цифровому вигляді може міститься на серверах Apple, які можуть фактично бути розміщені на території росії. Далі надіюсь ви розумієте… суть ризику.

Приклад з голосовим пошуком Google та Google Maps

Ваш голос передається на сервери Google, обробляється, трансформується в текст, і Google формує на базі текстових даних пошук, а вам у відповідь надсилає результати. Ну тобто, я вважаю, що НЕ варто передавати потенційно військові дані чи таємниці через голосовий пошук Google.

Здивований, але україномовний режим що для Google пошуку що для Google Карт не завжди працює коректно. Так, налаштування трошки ускладнені, бо там є своєрідний пріоритет мов, якщо вони не англійська.

Приклад з голосовим перекладачем Google Translate

(або будь-які інші онлайн голосові перекладачі)

Я дуже рідко користуюсь таким онлайн перекладачем, але в ці дні думаю НЕ варто надсилати голосові дані на сервери Google, бо

по-перше, щоб уникнути зайвої реклами (потенційний українець перекладає на ходу поляку чи словаку, яку військову амуніцію він хоче купити, а за пару днів пізніше побачить все в рекламах)
а по-друге, просто уникайте потенційного розголошення військових таємниць передаючи будь-які голосові дані в Інтернет.

В мене на iPhone з можливих слов’янських мов доступна тільки російська. Ні українську ні польську нема можливості завантажити.

Краще скачайте собі офлайн перекладач з текстовим словником, і якось але перекласти можна, крім того там є більше доступних мов.

Цими днями я зауважив, що в мене на іФоні, Speech Recognition включена тільки для програмок Foursquare та Viber.

Фактично на Mac OS / iOS первинно, все йде через функціональність Dictation, а програмка Viber має “включатор” Speech Recognition але він нічого не робить. Дивно. Протестував з Viber, Foursquare і Swarm програмами — дійсно фактичний вплив має тільки Dictation “включатор”.

ліво: я говорив “Restauracja Pino”, право: я говорив “Biedronka”. Тобто голос через серверий Apple перетворено в текст і вставлено в поле пошуку програм.

Приклад з Viber

У Вайбері, є дві подібні можливості, і люди часто плутають.

Перша, це просто можливість записати вашим телефоном звук вашого повідомлення, і вислати як файл вашому отримувачу. Ця функціональність НЕ потребує Інтернету для запису (адже записує суто ваш пристрій) але потребує Інтернету ТІЛЬКИ для надсилання файла повідомлення. Подібно працює в Телеграмі, Інстаграмі, Месенджері.
Друга можливість, то власне Speech Recognition (Dictation)(розпізнавання мовлення із надиктованого вами повідомлення), коли звук вашого повідомлення слово за словом передається в Інтернет, там на серверах Apple (в моєму випадку іФон, а в кого Андроїд тоді потенційно на серверах Google), опрацьовується і вам вже повертається текст того що ви говорили.

Якраз друга функціональність, ПОТЕНЦІЙНО може бути використана кібер шахраями.

Приклад. Уявіть собі, що ви по Вайберу говорили комусь про війну, вказували певні військові таємниці, і якщо ви були підключені до НЕВІДОМОГО вам WiFi, без VPN програми, то збільшується ризик, що канали зв’язку можуть прослуховувати та перехопити важливу інформацію.

В принципі подібно працює в Телеграмі, Інстаграмі, Месенджері, і тому я особисто ще не знаю деталей про кінцеві сервери. Але знаю точно — якщо ви хочете зменшити подібні ризики, то НЕ ПЕРЕДАВАЙТЕ свої записані звукові повідомлення комусь не провіреному — ви НЕ знаєте на яких російських серверах то може опинитись за лічені секунди. Якщо вже і передали, то НЕОДМІННО ВИДАЛІТЬ, коли його прочитали/почули. А я знаю, що особливо сучасне молоде покоління лінується писати текстом і замість записує все звуком. Розумію… Всі спішимо… Але, отримувати звукові повідомлення не тільки нервує деяких людей, але в ці дні це просто збільшує ризики перехоплення інформації диверсантами !!!

приклад Apple Siri

Від коли появилась Apple Siri в іФонах, в мене з нею якось так і не “зійшлось”. Я знаю принцип її роботи, в деяких моментах потрібна річ, але я її завжди відключаю.

По-перше бо я сам хочу вирішувати багато речей (шукати, замовляти, etc.).
По-друге, Siri аналізує вхідний звук мікрофона завжди. Так… вона НЕ висилає дані в Інтернет зразу, але як кажуть “подалі від гріха” краще її відключити в ці дні.
По-третє, мене просто дуже нервує, коли Siri включена і вона деколи випадково включається, бо їй “почулась” ключова фраза.

приклад Amazon Alexa

Свого часу я часто використовував Amazon Alexa. Цікаво було. Але, потім трапились дві події:

Amazon Alexa, почала помилково реагувала на слова “Олексій” і collection (звучить дуже подібно “колекшн”). І Алекса включалась час від часу, навіть коли я дивився фільми (де ті слова звучали).
Я заінсталив один плагін до Алекси, який дуже “матюкався”, і я був змушений видалити всі плагіни, щоб уникнути можливих непотрібних реакцій Алекси.

Із додаткових пересторог кібербезпеки:

Як і будь-які інші програмки на телефоні подібного характеру, Amazon Alexa потребує доступу до мікрофона. Тому, якщо ви не користуєтесь мобільною програмкою, то відключіть доступ принаймні до мікрофона.
не тільки Amazon Alexa програмка може мати доступ до вашої геолокації, а й кінцеві плагіни (skills), розробники яких можуть бути російські диверсанти. Тому, якщо і інсталювати плагіни в ці дні, то провіряти хто розробник.

Amazon Alexa запам'ятовує всі голові команди, речення, слова в Інтернеті, на серверах Амазона. І не важно чи правильно почуто чині, звукові файли всіх спроб все одно на серверах.

Це я пробував фразу “Руский корабль иди нах@й” бо в ті дні я бачив десь пробігала інфо, що Алекса вже вміє відповідати. Але відповідного Skill-а. я так і не знайшов щоб заінсталити.

А це приклад збереженої фрази, звукового файла про ситуації в Україні (я запитував):

“what is current situation of ukrainian-russian war”
“when russian-ukrainian war will end?”

На першу фразу, Алекса відповіла і запамятала відповідь тільки текстову, а в другом випадку вже була новіша дата, і до відповіді Алекса “прикріпила” посилання на фото з Вікіпедії

Більшість відповідей Алекса формує на базі даних з Вікіпедії. Але окремі плагіни, привносять багато інших ресурсів (мущика, радіо, подкасти, погода, etc.).

Плагінів розроблених українцями небагато. Додати можна на сторінці адміністрування Алекси в Інтернеті.

Якщо розробник відомий, то буде особливий ретийнг — “Guidance Suggested”

Не обходиться без мінусів.

Алекса, все таки буває не тільки помилково трансформує звукове повідомлення в текст, а навіть записує звук коли в ньому не має ключових фраз, або фрази сказані не повністю. І тоді пише, що “Audio was not intended for Alexa” або “Audio could not be understood”.

Коротко — Алекса ЗБЕРІГАЄ вами подані фрази-команди в Інтернеті, але ви можете їх видалити. Алекса сама НІЧОГО автоматично не висилає, але може помилково реагувати на певні слова і записувати потенційно розмови державної важності.

Приклад з Instagram та рекламою

Інстаграм чи ТікТок платформи підлаштовуються до ваших найчастіших пошуків, і потім вам “підсувають” той контент, а ви потім дивуєтесь чому… Десь так само працює реклама, якщо дані до серверів тих платформ надійшли від вас голосовим шляхом.

Я вже не перший раз тестую цей алгоритм на своїх життєвих прикладах. І як програміст знаю як працюють алгоритми розпізнавання тексту, мовлення трансформуючи звукові хвилі. Досліджував я переважно в Інстаграмі. Хоча подібні алгоритми можуть бути в TikTok, Facebook та Google.

Пояснюю. Якщо у вас включений телефон, на ньому включений Інтернет, програмка Інстаграм встановлена, і вона має доступ (з вашого ж дозволу) до мікрофону та до Інтернету, то якщо ви говорите імена відомих людей, вони вам з затримкою в день але покажуться в Інстаграмі.

Приклад №1(один із моїх майже випадкових експериментів).
Я дивився фільм, де була акторка — Lesley-Ann Brandt. І я довгий час згадував собі в голові кого ж вона мені нагадує. І коли мене осяйнуло, я вголос промовив (ну в ж в курсі як працює #ahaMoment) — Halle Berry. Обидві красуні дуже подібні.

Слід додати, що тут є ризик моєї помилки, або неточного розуміння алгоритмів між програмами (серверами). Адже особу Lesley-Ann я раніше шукав в Google, і Google запам’ятав результати пошуку та потенційно передав в Інстаграм. Але Хеллі Беррі я точно НЕ шукав цими днями. То чому ж Інстаграм “підсуває” мені Хеллі Бері? :)

Я багато тестів проводив з назвами інших осіб, які я ТОЧНО не шукав свого часу. Цей експеримент в мене постійно триває, бо я завжди не впевнений.

Спробуйте пересвідчитись самі — для тесту ви можете спробувати говорити будь-що, але щоб ви 100% знали, що ніяк інакше та інформація НЕ могла попасти. Правда в мене працює поки що тільки англійською мовою. Я не тестував ще українські чи російські чи польські слова.

ОНОВЛЕНО ==>>

Приклад №2 — ще один приклад того, що Інстаграм “слухає” нас… Я сам часто не вірю собі, але сьогоднішня ситуація мене ще більше переконала…

Вийшов я з дому, мобільний інтернет виключений, ну тобто телефон тільки включений… сам по собі… Доступ до мікрофона для Інстаграму, Месенджера, Фейсбука я давно ВІДключив… але для Google, Google Maps (для навігації), Вайбера (для дзвінків) та Монобанку (недавно мусів підтвердити свою особу через відео/аудіо дзвінок) мікрофон був дозволений… Зайшов до перукарні, кажу “Czy można dziś jeszcze umówić się na strzyżenie męskie?” (ну бо 29 Кві, majówka, пятниця, попередній перукар вже був зайнятий, а я як на зло саме сьогодні вирішив підстригтись…). У відповідь прозвучало на польско-вже-чутно-українсько-російській мові, що можна але пізніше, бо перукарка вийшла… Я потім за пару хв повернувся… І знову спитав то саме але вже другу перукарку… яка вже мене записала, і після слова “Андрій” зрозуміла, і відповіла “Хорошо”… Треба було почекати годину, а так як то в моєму будинку то повернувся до хати… За пару хв. собі записав в Календарі нагадування strzyżenie … ну щоб не забути… До речі це той календар, який при наявному доступі до Інтернету на комп’ютері синхронізується з Google Calendar… Ну і прийшла моя 13:30 … пішов, підстригся, повернувся, продовжив працювати…

І от тепер увага… Інтернет на телефоні вже був включений кілька годин… Рука потягнулась до Інстаграму. І уявіть моє здивування, коли Інстаграм почав “підсувати” мені різні зачіски… жіночі, чоловічі, різне… в принципі не багато, але сам факт мене здивував, адже останні останні зачіски в Інстаграмі я бачив може в грудні 2021-го року… І я навіть ніколи подібного НЕ ШУКАВ.

Отож,

ключове слово в тих пару хвилинах коли я говорив, а потім писав це strzyżenie (стрижка)
факт, що саме Google мав доступ до мікрофона
факт, що я ще й продублював в календарі слово… хз..

А тепер уявіть собі, як пересічний українець наліво, направо говорить про росіян, путлера, та інші військові таємниці… Думаю догадуєтесь, який саме контент Інстаграм буде “підсувати” таким людям???

PS. Останніми днями, Інстаграм підсуває мені дуже багато “літаків” та “зброї”, але про такі речі я говорив опосередковано по телефону і також припускав, що це “тренд” серед моїх “українських Інстаграм друзів”. Але все ж таки… “мотайте на вус”…

Приклад №3 — І ще один приклад коли Інстаграм і Фейсбук підслуховують. Знайомі з боку сиділи і дуже детально і довго говорили про футбол, англійською мовою але про польську лігу. І буквально зразу маю таку рекламу. Хоча особисто ніколи не говорю і не шукаю нічого про футбол.

Приклад №4

Хотіла собі купити щітку з гумою для миття вікон і душової. Запитувала у своїх дівчат у дворі чи можуть порадити, де купити. Знайшла в АТБ і взяла на пробу. Ніде про це не писала. А тепер мені приходить реклама з різними щітками такого типу. Як то так? Я навіть картки в АТБ не маю.

<<= ОНОВЛЕНО

Voice Cloning (клонування голосу)

Це поки що ближче до футуризму, але, технічно думаючи, будь-яка копія вашого голосу це своєрідний клон, це своєрідне голосове ДНК. Яке може бути використане для клонування та подальшого шахрайського використання в кіберпросторі. Так наприклад,

Нова технологія ‘Клонування Голосу’ вже замінює роботизований голос віртуальних помічників більш людським, природним голосом. Клонування голосу з допомогою Штучного Інтелекту може створити людський голос для чат-ботів, відеокліпів, та інших взаємодій на більш інтуїтивному та привабливому рівні для кінцевих користувачів.

Джерело (мова англійська).

VocaliD — це новаторська компанія, яка займається збереженням і відтворенням голосів людей за допомогою штучного інтелекту. Вони хочуть надати людям засоби для підтримки їхнього почуття ідентичності. Можливість зберігати свій голос, особливо тоді коли для них стає неможливим самостійно генерувати мову, має якраз допомогти в цьому. Цифровий голос встановлюється на супровідний додаток, який було встановлено на телефон або інший пристрій користувача. І потім людина може ввести те, що хоче сказати, і програма буде створювати аудіо-речення голосом користувача.

Unbelievable!!!! правда?
Джерело (мова англійська)

Тому наголошую, старайтесь НЕ передавати свій голос в кіберпростір, бо ви НЕ знаєте на яких серверах звукові файли залишаться, чи на американських чи на російських. Подбайте про зменшення ймовірності того, що вашим голосом будуть відкриватись телефони чи банківські скриньки після вашої смерті.

Voice Control

управління програмами операційної системи посередництвом вашої звукової команди.
оффлайн (з використанням вашого голосу) і на початку може бути потрібно завантажити інші мови.

В принципі поки працює без Інтернету. Тоді все безпечно. Але якщо якісь сервіси вимагають Інтернету, то є ризик що ключові “звуки” для управління вашим телефоном чи “розумним будинком” будуть міститись на серверах в Інтернеті, і якщо кібер шахраї будуть мати доступ до тих “звуків-слів-фраз”, тоді, теоретично, програмно можна управляти пристроями.

Базові команди на iOS чи Mac OS працюють. Тобто після вимови, “Open Notes” — відкриваютсья Нотатки, “Open Calendar” — відкривається програма Календар. І так далі.

Шкода, але ані Українська, ані Польська мови недоступні для довантаження. Я собі крім англійської довантажив німецьку. Якраз тільки для цього потрібен Інтернет. Потім телефон чи комп’ютер може керуватись без Інтернету.

Sound Recognition

розпізнавання звуків
оффлайн (без голосу користувача)

В нових іФонах, принаймні здається від 2019-го року, в системі iOS появилась така фішка, але не всі про неї знають, бо вона ВИКЛЮЧЕНА по замовчуванні. Але з пункту управління є нова кнопка, якою можна включити. Плюс треба ще додатково налаштувати звуки та їм відповідні повідомлення.

iOS. Settings \ General \ Accessibility \ Sound Recognition

Слід додати, що я ще точно не знаю, але коли Sound Recognition включено, то пише що “6.7 МБ використано”. Я припускаю, що або приклади звуків для математично-технічного порівняння в програмній моделі, або записані вхідні звуки… Досліджую ще …

Типи повідомлень — загальна поведінка на іФонах. Але може бути якраз важливо який саме тип повідомлення конкретні особі підходить.

Приклади використання:

Особа не чує, але бачить і говорить. І ось наприклад у ванні протекло, і почала текти вода, а особа не чує. І якщо включити розпізнавання звуку текучої води, то на телефоні буде вискакувати повідомлення, і це теоретично приверне увагу очей особи.
Особа не бачить, але чує і говорить. Ті ж самі налаштування повідомлень мають випадаючі повідомлення для різних режимів але з налаштованими звуками (адже особа може бути постійно в чутливих навушниках).
З найбільш поширених звуків, думаю будуть гавкаючі собаки, нявкаючі коти, чийсь кашель (наприклад коли людина не чує, то їй може бути вигідно “побачити, що хтось в кімнаті кашляє”) і дитячі плачі.

Мінуси звичайно є. Якщо ви слухаєте електронну музику, в якій часто використовуються семпли з реального життя. Тоді ваш телефон буде вас повідомляти про некоректні, недоречні звуки. Наприклад мені вже і “чайник свистів” (kettle), і “вода текла”, і “розбивалось скло”, і навіть помилково “нявкав кіт”.

Speech Speaking

озвучка тексту цифровим наперед визначеним голосом
оффлайн, (без голосу користувача)

Це безпечна функціональність, якщо ви користуєтесь на телефоні чи комп’ютері, бо в більшості технічні інструменти “читання тексту комп’ютерним голосом” роблять це без Інтернету. АЛЕ. На початку використання, якщо ви захочете обрати “інший цифровий голос” чи іншу мову, то їх треба завантажити до телефона/компютера. Ризики саме при цьому завантажені мінімальні, бо відбувається це з серверів офіційних представників (Apple, Google). А от коли вже відбувається переклад тексту і трансформація в цифровий голос, то Інтернету вже не треба.

Мови. Англ ОК, рос. теж є. Польська є. А от українською мовою на MacOS немає завантаження.