Фінансові установи мають доступ до транзакцій майже кожної сім’ї. Державні реєстри фіксують угоди з нерухомістю та транспортними засобами. Усі ці величезні обсяги даних зберігаються на серверах, але рідко конвертуються у прибуток. Фото Getty Images
Україна має безцінний резервуар даних, але поки що не вміє їх монетизувати. На відміну від США, де такі компанії, як Neon та Stack Overflow, вже перетворюють дані на прибуток через API, підписки та роялті, Україна не використовує цей потенціал.
Чому українським підприємствам не вдається використовувати свої дані як товар, і як вони можуть скористатися цією можливістю? Олексій Вигодський, керівник відділу корпоративних додатків і технологій у MODUS X, ділиться своїми думками.
Придбайте річну підписку на шість журналів Forbes Ukraine за ціною чотирьох випусків. Якщо ви цінуєте якість, глибину та силу практичного досвіду, ця передплата ідеально підходить для вас.
У світі, де дані стали новою нафтою, Україна сидить на золотому родовищі, але досі не видобуває з нього жодного грама «золота». Мобільні оператори мають знання про те, де і коли переміщуються мільйони людей. Фінансові установи контролюють транзакції практично кожної родини. Державні реєстри фіксують укладені угоди в сфері нерухомості та автомобілів. Усі ці дані зберігаються на серверах, однак рідко стають фінансово вигідними.
Водночас існують тисячі компаній, яким щодня потрібні дані для ухвалення рішень. Наприклад, підприємець, що відкриває кав’ярню, прагне зрозуміти потік клієнтів біля конкретного приміщення, середній чек у певному регіоні міста, рівень конкуренції. Ці дані вже існують у розрізненій формі, проте ринок до цих пір не об’єднує продавців і покупців.
Популярне Категорія Компанії Дата 24 вересня Десять найбільших бізнес-центрів Києва. Скільки заробляють, хто їхні власники та нові орендарі
Ринок даних в Україні поки що не працює
Основна проблема полягає в нерозумінні, що саме слід продавати й як це використовувати. Компанії мислять категоріями «продати обсяги даних» або «зробити вивантаження в рядках». В той час як у США та інших країнах дані вважаються товаром з доданою вартістю: токени запитів, агреговані вибірки, прогнози, API-доступи.
Там ринок даних активно функціонує та приносить мільйони.
Сім моделей монетизації даних, що вже успішно працюють у США
Прямі ліцензії. Доступ до обсягу даних за моделлю франшизи: фіксована плата + роялті.
Ризик: невизначеність авторського права.
Приклад №1: угоди медіа з розробниками ШІ (The New York Times проти OpenAI).
Приклад №2: угоди платформ форумів з розробниками ШІ (Stack Overflow, Quora – OpenAI, Google).
Підписка на API або токени. Оплата за кожен запит або цитування – зручніше, ніж продаж «за обсягами».
Ризик: збільшення витрат на інфраструктуру.
Приклад №1: компанія Neon виплачує користувачам до 30 центів за кожну хвилину їх діалогу з іншою особою через мобільний телефон. Зібрані дані перепродуються іншим компаніям для навчання моделей штучного інтелекту. Користувач має можливість заробляти до $30 на день.
Приклад №2: Dataset Providers Alliance ліцензує дані за моделлю opt-in, продаючи доступ до даних лише за згодою правовласника, що підвищує прозорість угоди між учасниками.
Data marketplaces. Маркетплейси спеціалізованих датасетів з підпискою. Надають можливість отримати готові набори даних для конкретних індустрій: рітейл, телекомунікації, медіа.
Ризик: правова питаність та складність оцінки вартості даних.
Приклад: аналітична платформа Datawiz BES пропонує доступ до датасетів, які мають відношення до телекомунікацій та рітейлу, а також інструменти для їх аналізу.
Clean rooms / Fine-tuning as a service. Замість передачі даних сторонньому постачальнику, обчислювальне середовище з моделлю ШІ розгортається безпосередньо в місці їх зберігання – на стороні клієнта або в контрольованій інфраструктурі. Це дозволяє навчати моделі в безпечному середовищі відповідно до юридичних і комплаєнс-вимог.
Ризик: витоки даних під час виведення, які можуть бути використані для атак типу membership inference або model inversion.
Приклад: компанія LiveRamp пропонує ізольовані середовища (Safe Haven), інструменти для спільного аналізу даних, псевдонімізацію та інші рішення, які дозволяють клієнтам безпечно взаємодіяти з даними без їх повної передачі.
Роялті за результати (Output-linked royalties). Постачальник даних отримує оплату лише тоді, коли його дані фактично були використані у фінальній відповіді або результаті моделі.
Ризик: атрибуція – важко точно визначити, які саме частини даних вплинули на результат, особливо в масштабних моделях з численними джерелами.
Приклад: ШІ-платформа Perplexity пропонує модель, де видавці контенту можуть отримувати частку доходу, коли їхні матеріали використовуються у результатах пошукових запитів на платформі.
Data unions / trusts. Окремі користувачі або малі підприємства об’єднують свої дані колективно (в трасти) і пропонують їх пакетом за винагороду, яка розподіляється між учасниками.
Ризики:
- управління: складно забезпечити прозорий облік внеску та справедливий розподіл доходів;
- регуляція: необхідність дотримання законодавства про захист даних і контролю ризиків повторної ідентифікації.
Приклад №1: Swash – браузерне розширення, яке фіксує активність користувача, об’єднує її у Data Union та розподіляє дохід від продажу агрегованих даних.
Приклад №2: DIMO – платформа IoT / автомобільних даних: власники авто підключають пристрій чи застосунок, дають згоду на збір даних і отримують винагороду; дані агрегуються та продаються третім особам.
Корпоративний «замок на даних». Компанія ізолює власні first-party-дані та використовує їх як основу для розробки та ліцензування продуктів.
Ризик: висока вартість зберігання, обробки і підтримки інфраструктури.
Приклад: Dow Jones / Factiva розширили маркетплейс ШІ-контенту, надавши понад 5000 видавництвам можливість ліцензувати свій контент компаніям. Це приклад закритої моделі роботи з first-party-даними та їх комерційного використання.
Еволюція ринку на практиці
Наведені вище моделі не виникли спонтанно. Ринок пройшов етапи проб і помилок: у США та Європі перші схеми навчання LLM-моделей розроблялися без чіткої фіксації прав власників даних і обмежень для зовнішніх користувачів. Багато джерел даних: медіа, фотографи, дослідницькі організації, не були юридично готові захищати свої інтереси. Технологічні компанії ділилися впевнено, використовуючи будь-які доступні великими обсяги, не беручи до уваги наслідки.
Серед наслідків – гучні конфлікти інтересів і судові позови: від NYT проти OpenAI до Getty проти Stability AI. Ці випадки продемонстрували: без прозорих договорів і правил ринок неминуче потрапляє у спори.
Для України це сигнал: власникам даних слід вже зараз на рівні публічних оферт, ліцензій і правил використання розробляти юридичні механізми захисту. Щоб у майбутньому не доводилося надолужувати згаяне через суди.
Проте саме ці конфлікти стали каталізатором до зрілості індустрії. Під тиском позовів та репутаційних ризиків технологічні компанії та власники даних почали розвивати більш зрілі підходи: з’явилися прозорі ліцензії, підписка на API, дата-маркетплейси з юридичними гарантіями, захищені clean rooms для навчання моделей. Дані перестали сприйматися як безкоштовне «паливо» й перетворилися на юридично оформлений актив, навколо якого формуються сталі бізнес-екосистеми.
Для України це особливо важливо: ми можемо скористатися вже випробуваними практиками, що на Заході змінювалися в судах, та з самого початку впровадити їх у свої «правила гри» – від стандартів публічних договорів до атрибуцій API і роялті.
Шанс для України
Для України відкрилося рідкісне вікно можливостей. Поки США та Європа вчилися на власних помилках і витрачали мільйони у судах, ми можемо почати з чистого аркуша.
У нас вже є галузі, що мають величезний потенціал, зокрема в енергетиці, банківському секторі, телекомунікаціях і медіа. Їм потрібно не просто продавати «сирі дані», а перетворювати їх на готові продукти:
- machine-readable-ліцензії у контракти;
- об’єднання медіакомпаній у data unions;
- захищені clean rooms для навчання моделей;
- справедливі схеми роялті та API-атрибуції.
Такий підхід перетворює дані не на ризик, а на капітал. Головне питання полягає в тому, чи встигнемо ми скористатися цим вікном, поки воно відкрите.
Практичний чекліст, що робити вже зараз:
- Медіа та автори: провести ревізію прав, визначити machine-readable-ліцензії, з’ясувати стратегію – звертатися до суду чи укладати угоди з користувачами даних, зокрема технологічними компаніями.
- Компанії – замовники ШІ: закладати DPIA, вимагати гарантії походження даних, резервувати бюджет на юридичні витрати.
- Постачальники ШІ: публікувати data cards, встановлювати процеси реагування на позови, запускати API для атрибуції та роялті.
Дані – це не просто байти і рядки. Це нова нафта, а, можливо, навіть більше – це мова переговорів та інструмент для формування конкурентних стратегій.
Україна має і джерела, і попит, а також унікальний шанс уникнути «дитячих хвороб» ринку. Чи скористаємося ми цим шансом, чи продовжимо торгувати «сирим» продуктом, коли світ вирішив платити за готові рішення?
Матеріали по темі
Категорія Інновації Дата 18 серпня 2023 Чому варто переносити великі дані на хмарні сервіси та як це найбезпечніше зробити. Розповідає IT-консультант Андрій Губський на прикладі одного з найбільших університетів України – КПІ
Категорія Інновації Дата 20 грудня 2024 «За атакою стоять російські спецслужби». Понад 60 держреєстрів не працюють через кібератаку росіян на Мін’юст. Які наслідки й чим загрожує українцям потенційний витік даних
Категорія Інновації Дата 25 січня 2024 Хакери атакували дата-центр «Парковий». Через кібератаку частково не працюють сервіси «Нафтогазу», «Укрпошти», «Шлях» та «Укрзалізниці». Що відбувається Контриб’ютори співпрацюють із Forbes на позаштатній основі. Їхні тексти відображають особисту точку зору. У вас інша думка? Пишіть нашій редакторці Тетяні Павлушенко – [email protected]