Strojové učenie: technológia, ktorá mení svet dát
Strojové učenie, často označované anglickým termínom machine learning, je oblasť informatiky a umelej inteligencie, ktorá umožňuje počítačom učiť sa z dát a zlepšovať svoje rozhodnutia bez toho, aby boli všetky kroky vopred presne naprogramované. Namiesto toho, aby programátor definoval detailné pravidlá typu „ak nastane situácia X, urob Y“, poskytne systému množstvo príkladov – vstupy a správne výstupy – a algoritmus sa snaží nájsť vzťahy medzi nimi. Výsledkom je model, ktorý dokáže robiť predpovede alebo rozhodnutia pre nové, doteraz nevidené prípady.
Základná myšlienka strojového učenia preto spočíva v tom, že dáta sa stávajú „učebnicou“ pre počítač. Čím sú kvalitnejšie a reprezentatívnejšie, tým lepšie sa systém naučí. Naopak, ak sú dáta skreslené, neúplné alebo chybné, odzrkadlí sa to aj na správaní modelu. Tento princíp sa často zhrňuje do výroku „garbage in, garbage out“ – ak dnu vstupuje odpad, von z modelu vychádzajú nespoľahlivé výsledky.
Ako funguje proces strojového učenia
Keď chceme vytvoriť model strojového učenia, nevyzerá to tak, že „zapneme umelú inteligenciu“ a počítač magicky všetko vyrieši. Ide o postupný proces, ktorý obsahuje viacero krokov. Najprv treba zozbierať dáta. Môžu pochádzať z databáz firiem, senzorov v strojoch, logov z webových stránok, mobilných aplikácií či sociálnych sietí. Následne je potrebné tieto dáta vyčistiť – odstrániť duplicity, nezmyselné hodnoty a doplniť chýbajúce informácie, prípadne vylúčiť záznamy, ktoré by model iba mýlili.
Až potom prichádza na rad výber vhodného typu modelu. Pre niektoré úlohy sa hodí jednoduchšia logistická regresia, pre iné stromové metódy a pre zložité problémy s obrázkami či zvukmi sa často používajú hlboké neurónové siete. Vybraný model sa následne trénuje – to znamená, že algoritmus postupne upravuje svoje vnútorné parametre tak, aby čo najlepšie sedeli na tréningové dáta. Počas tréningu sa sleduje, ako sa model správa na validačných dátach, ktoré nevidel, aby sme vedeli, či sa neučí „naspamäť“ konkrétne príklady.
Aby sme vedeli objektívne posúdiť kvalitu modelu, používame samostatnú testovaciu množinu dát. Na nej meriame presnosť, chybovosť či iné metriky. Až keď je výkon modelu dostatočný, nasadí sa do praxe – do webovej služby, mobilnej aplikácie alebo interného systému firmy. V ideálnom prípade sa model priebežne preučuje na nových dátach a prispôsobuje sa meniacemu sa prostrediu.
Zhrnutie typických krokov býva často uvádzané v skrátenej forme:
- zber a čistenie dát,
- výber modelu a jeho trénovanie,
- testovanie a hodnotenie kvality,
- nasadenie do reálneho prostredia a následné vylepšovanie.
Základné typy strojového učenia
Podľa toho, aké dáta máme k dispozícii a čo chceme dosiahnuť, rozlišujeme viacero typov strojového učenia. Najrozšírenejšie je učenie s učiteľom (supervised learning). V tomto prípade máme vstupy aj správne výstupy – napríklad fotky zvierat a pri každej je napísané, či ide o mačku alebo psa. Model sa na týchto príkladoch učí rozlišovať kategórie a jeho úlohou je, aby pre novú fotku vedel priradiť správny štítok. Tento prístup sa používa pri klasifikácii (keď predpovedáme kategóriu) aj pri regresii (keď predpovedáme číselnú hodnotu, napríklad cenu nehnuteľnosti).
Druhým veľkým typom je učenie bez učiteľa (unsupervised learning). Tu máme iba vstupné dáta bez správnych odpovedí. Algoritmus sa snaží odhaliť skryté štruktúry, napríklad rozdeliť zákazníkov do skupín podľa nákupného správania, aj keď nikto vopred neurčil, koľko skupín by malo existovať a ako sa majú volať. Typickým príkladom je zhlukovanie, pri ktorom hľadáme skupiny podobných objektov, alebo znižovanie dimenzie, kde zjednodušujeme dáta na menej rozmerov, aby sme ich vedeli lepšie zobraziť a analyzovať.
Špecifickú kategóriu predstavuje posilňované učenie (reinforcement learning). V tomto prípade sa model učí prostredníctvom interakcie s prostredím a dostáva odmenu alebo trest podľa toho, aké kroky vykonal. Predstavme si agenta, ktorý sa učí hrať počítačovú hru. Nevie dopredu, ktoré ťahy sú správne. Skúša možnosti, za úspech je odmeňovaný a za chyby penalizovaný. Postupne si vytvorí stratégiu, ktorá maximalizuje dlhodobú odmenu. Takýto prístup sa používa pri robotike, riadení výrobných liniek či pri optimalizácii dopravy.
Kde sa strojové učenie používa v každodennom živote
Mnohí ľudia si ani neuvedomujú, koľkokrát denne sa stretnú s výsledkami strojového učenia. Keď nám e-mailová schránka sama odfiltruje spam, ide o klasifikačný model, ktorý sa naučil rozoznávať podozrivé správy. Pri používaní streamovacích služieb, ako sú Netflix alebo Spotify, fungujú odporúčacie systémy, ktoré sledujú naše preferencie a na základe nich navrhujú filmy alebo hudbu, ktoré by sa nám mohli páčiť. Sociálne siete rozhodujú, ktoré príspevky uvidíme na časovej osi, a hoci to má aj problematické stránky, technicky ide o zložité modely pracujúce s veľkým množstvom dát.
Veľmi viditeľná je úloha strojového učenia aj v oblasti spracovania obrazu a videa. Mobilné telefóny dokážu rozpoznať tvár používateľa a odomknúť zariadenie, aplikácie identifikujú objekty na fotografiách, autonómne vozidlá vďaka rozpoznávaniu obrazu sledujú jazdné pruhy, chodcov a prekážky. Podobne v oblasti textu a jazyka sa používajú prekladače, hlasoví asistenti či nástroje na automatické sumarizovanie dokumentov, ktoré stoja na kombinácii strojového učenia a pokročilých jazykových modelov.
Významnú úlohu má strojové učenie aj vo svete financií. Banky analyzujú transakcie, aby odhalili podvodné správanie, a pri poskytovaní úverov posudzujú riziko nesplácania na základe historických dát. V zdravotníctve sa modely využívajú na analýzu medicínskych snímok, na podporu diagnostiky a na predpovedanie rizika ochorení. Tieto aplikácie ukazujú, že strojové učenie nie je abstraktný akademický koncept, ale praktický nástroj s reálnym dopadom na život ľudí.
Medzi najčastejšie oblasti použitia patria napríklad:
- odporúčacie systémy v e-commerce a zábavnom priemysle,
- filtrovanie spamu a detekcia podvodov,
- rozpoznávanie obrazu, zvuku a reči,
- prediktívna údržba strojov v priemysle,
- personalizovaný marketing a analýza správania zákazníkov.
Výhody, riziká a etické otázky
Prínosy strojového učenia sú nesporné. Umožňuje automatizovať činnosti, ktoré by človek robil veľmi dlho alebo by ich vôbec nezvládol, lebo pracujú s obrovským objemom dát. Zároveň dokáže odhaľovať vzorce, ktoré nie sú ľudskému oku viditeľné. Firmy vďaka tomu lepšie rozumejú svojim zákazníkom, štáty môžu efektívnejšie plánovať dopravu alebo zdravotnícke služby, vedci získavajú nové poznatky z komplexných dátových súborov.
Na druhej strane strojové učenie prináša aj množstvo rizík a otázok. Ak sú tréningové dáta skreslené, napríklad obsahujú historické predsudky voči určitým skupinám obyvateľstva, model tieto predsudky často preberá a v niektorých prípadoch dokonca zosilňuje. To môže viesť k diskriminácii pri prijímaní do práce, poskytovaní pôžičiek alebo pri rozhodovaní súdov, ak sú modely použité bez kritického posúdenia.
Ďalšou výzvou je vysvetliteľnosť. Niektoré modely, najmä veľké neurónové siete, sú natoľko komplexné, že aj odborníkom je ťažké presne popísať, prečo urobili konkrétne rozhodnutie. V oblastiach, kde ide o ľudské životy alebo zásadné práva, je však dôležité vedieť rozhodnutie zdôvodniť. Preto sa rozvíja oblasť tzv. vysvetliteľnej umelej inteligencie, ktorá sa snaží prinášať modely alebo nástroje, ktoré správanie systému približujú ľuďom.
S tým súvisí aj otázka súkromia a bezpečnosti. Modely často pracujú s citlivými údajmi o klientoch, pacientoch či používateľoch online služieb. Ak sa s nimi narába nezodpovedne, môže dôjsť k únikom alebo ich zneužitiu. Preto je dôležité uplatňovať zásady ochrany osobných údajov, anonymizácie a šifrovania.
Medzi hlavné riziká a výzvy patrí:
- reprodukcia predsudkov ukrytých v dátach,
- nedostatočná transparentnosť a vysvetlenie modelov,
- ohrozenie súkromia a únik citlivých údajov,
- nadmerná závislosť spoločnosti od automatizovaných rozhodnutí.
Budúcnosť strojového učenia
Strojové učenie sa stalo jedným z hlavných motorov technologického pokroku posledných rokov a všetko naznačuje, že jeho význam bude rásť. S rozmachom výpočtového výkonu, špecializovaných čipov a dostupnosti veľkých dátových súborov sa otvárajú možnosti, ktoré boli ešte nedávno nemysliteľné. Čoraz viac procesov bude čiastočne alebo úplne automatizovaných, od riadenia dopravy cez výrobu až po služby zákazníkom.
Budúcnosť však nebude závisieť len od technických možností, ale aj od toho, ako sa spoločnosť vyrovná s etickými a právnymi otázkami. Bude potrebné definovať pravidlá zodpovedného používania umelej inteligencie, stanoviť hranice toho, kde možno rozhodovanie prenechať strojom a kde musí mať posledné slovo človek. Strojové učenie tak nie je len technická disciplína, ale aj téma, ktorá sa dotýka filozofie, práva, ekonómie a sociológie.
Náhľadový obrázok: Freepik

Top comments