Strojové učenie: technológia, ktorá mení svet dát

Machine learning

Strojové učenie, často označované anglickým termínom machine learning, je oblasť informatiky a umelej inteligencie, ktorá umožňuje počítačom učiť sa z dát a zlepšovať svoje rozhodnutia bez toho, aby boli všetky kroky vopred presne naprogramované. Namiesto toho, aby programátor definoval detailné pravidlá typu „ak nastane situácia X, urob Y“, poskytne systému množstvo príkladov – vstupy a správne výstupy – a algoritmus sa snaží nájsť vzťahy medzi nimi. Výsledkom je model, ktorý dokáže robiť predpovede alebo rozhodnutia pre nové, doteraz nevidené prípady.

Základná myšlienka strojového učenia preto spočíva v tom, že dáta sa stávajú „učebnicou“ pre počítač. Čím sú kvalitnejšie a reprezentatívnejšie, tým lepšie sa systém naučí. Naopak, ak sú dáta skreslené, neúplné alebo chybné, odzrkadlí sa to aj na správaní modelu. Tento princíp sa často zhrňuje do výroku „garbage in, garbage out“ – ak dnu vstupuje odpad, von z modelu vychádzajú nespoľahlivé výsledky.

Ako funguje proces strojového učenia

Keď chceme vytvoriť model strojového učenia, nevyzerá to tak, že „zapneme umelú inteligenciu“ a počítač magicky všetko vyrieši. Ide o postupný proces, ktorý obsahuje viacero krokov. Najprv treba zozbierať dáta. Môžu pochádzať z databáz firiem, senzorov v strojoch, logov z webových stránok, mobilných aplikácií či sociálnych sietí. Následne je potrebné tieto dáta vyčistiť – odstrániť duplicity, nezmyselné hodnoty a doplniť chýbajúce informácie, prípadne vylúčiť záznamy, ktoré by model iba mýlili.

Až potom prichádza na rad výber vhodného typu modelu. Pre niektoré úlohy sa hodí jednoduchšia logistická regresia, pre iné stromové metódy a pre zložité problémy s obrázkami či zvukmi sa často používajú hlboké neurónové siete. Vybraný model sa následne trénuje – to znamená, že algoritmus postupne upravuje svoje vnútorné parametre tak, aby čo najlepšie sedeli na tréningové dáta. Počas tréningu sa sleduje, ako sa model správa na validačných dátach, ktoré nevidel, aby sme vedeli, či sa neučí „naspamäť“ konkrétne príklady.

Aby sme vedeli objektívne posúdiť kvalitu modelu, používame samostatnú testovaciu množinu dát. Na nej meriame presnosť, chybovosť či iné metriky. Až keď je výkon modelu dostatočný, nasadí sa do praxe – do webovej služby, mobilnej aplikácie alebo interného systému firmy. V ideálnom prípade sa model priebežne preučuje na nových dátach a prispôsobuje sa meniacemu sa prostrediu.

Zhrnutie typických krokov býva často uvádzané v skrátenej forme:

  • zber a čistenie dát,
  • výber modelu a jeho trénovanie,
  • testovanie a hodnotenie kvality,
  • nasadenie do reálneho prostredia a následné vylepšovanie.

Základné typy strojového učenia

Podľa toho, aké dáta máme k dispozícii a čo chceme dosiahnuť, rozlišujeme viacero typov strojového učenia. Najrozšírenejšie je učenie s učiteľom (supervised learning). V tomto prípade máme vstupy aj správne výstupy – napríklad fotky zvierat a pri každej je napísané, či ide o mačku alebo psa. Model sa na týchto príkladoch učí rozlišovať kategórie a jeho úlohou je, aby pre novú fotku vedel priradiť správny štítok. Tento prístup sa používa pri klasifikácii (keď predpovedáme kategóriu) aj pri regresii (keď predpovedáme číselnú hodnotu, napríklad cenu nehnuteľnosti).

Druhým veľkým typom je učenie bez učiteľa (unsupervised learning). Tu máme iba vstupné dáta bez správnych odpovedí. Algoritmus sa snaží odhaliť skryté štruktúry, napríklad rozdeliť zákazníkov do skupín podľa nákupného správania, aj keď nikto vopred neurčil, koľko skupín by malo existovať a ako sa majú volať. Typickým príkladom je zhlukovanie, pri ktorom hľadáme skupiny podobných objektov, alebo znižovanie dimenzie, kde zjednodušujeme dáta na menej rozmerov, aby sme ich vedeli lepšie zobraziť a analyzovať.

Špecifickú kategóriu predstavuje posilňované učenie (reinforcement learning). V tomto prípade sa model učí prostredníctvom interakcie s prostredím a dostáva odmenu alebo trest podľa toho, aké kroky vykonal. Predstavme si agenta, ktorý sa učí hrať počítačovú hru. Nevie dopredu, ktoré ťahy sú správne. Skúša možnosti, za úspech je odmeňovaný a za chyby penalizovaný. Postupne si vytvorí stratégiu, ktorá maximalizuje dlhodobú odmenu. Takýto prístup sa používa pri robotike, riadení výrobných liniek či pri optimalizácii dopravy.

Kde sa strojové učenie používa v každodennom živote

Mnohí ľudia si ani neuvedomujú, koľkokrát denne sa stretnú s výsledkami strojového učenia. Keď nám e-mailová schránka sama odfiltruje spam, ide o klasifikačný model, ktorý sa naučil rozoznávať podozrivé správy. Pri používaní streamovacích služieb, ako sú Netflix alebo Spotify, fungujú odporúčacie systémy, ktoré sledujú naše preferencie a na základe nich navrhujú filmy alebo hudbu, ktoré by sa nám mohli páčiť. Sociálne siete rozhodujú, ktoré príspevky uvidíme na časovej osi, a hoci to má aj problematické stránky, technicky ide o zložité modely pracujúce s veľkým množstvom dát.

Veľmi viditeľná je úloha strojového učenia aj v oblasti spracovania obrazu a videa. Mobilné telefóny dokážu rozpoznať tvár používateľa a odomknúť zariadenie, aplikácie identifikujú objekty na fotografiách, autonómne vozidlá vďaka rozpoznávaniu obrazu sledujú jazdné pruhy, chodcov a prekážky. Podobne v oblasti textu a jazyka sa používajú prekladače, hlasoví asistenti či nástroje na automatické sumarizovanie dokumentov, ktoré stoja na kombinácii strojového učenia a pokročilých jazykových modelov.

Významnú úlohu má strojové učenie aj vo svete financií. Banky analyzujú transakcie, aby odhalili podvodné správanie, a pri poskytovaní úverov posudzujú riziko nesplácania na základe historických dát. V zdravotníctve sa modely využívajú na analýzu medicínskych snímok, na podporu diagnostiky a na predpovedanie rizika ochorení. Tieto aplikácie ukazujú, že strojové učenie nie je abstraktný akademický koncept, ale praktický nástroj s reálnym dopadom na život ľudí.

Medzi najčastejšie oblasti použitia patria napríklad:

  • odporúčacie systémy v e-commerce a zábavnom priemysle,
  • filtrovanie spamu a detekcia podvodov,
  • rozpoznávanie obrazu, zvuku a reči,
  • prediktívna údržba strojov v priemysle,
  • personalizovaný marketing a analýza správania zákazníkov.

Výhody, riziká a etické otázky

Prínosy strojového učenia sú nesporné. Umožňuje automatizovať činnosti, ktoré by človek robil veľmi dlho alebo by ich vôbec nezvládol, lebo pracujú s obrovským objemom dát. Zároveň dokáže odhaľovať vzorce, ktoré nie sú ľudskému oku viditeľné. Firmy vďaka tomu lepšie rozumejú svojim zákazníkom, štáty môžu efektívnejšie plánovať dopravu alebo zdravotnícke služby, vedci získavajú nové poznatky z komplexných dátových súborov.

Na druhej strane strojové učenie prináša aj množstvo rizík a otázok. Ak sú tréningové dáta skreslené, napríklad obsahujú historické predsudky voči určitým skupinám obyvateľstva, model tieto predsudky často preberá a v niektorých prípadoch dokonca zosilňuje. To môže viesť k diskriminácii pri prijímaní do práce, poskytovaní pôžičiek alebo pri rozhodovaní súdov, ak sú modely použité bez kritického posúdenia.

Ďalšou výzvou je vysvetliteľnosť. Niektoré modely, najmä veľké neurónové siete, sú natoľko komplexné, že aj odborníkom je ťažké presne popísať, prečo urobili konkrétne rozhodnutie. V oblastiach, kde ide o ľudské životy alebo zásadné práva, je však dôležité vedieť rozhodnutie zdôvodniť. Preto sa rozvíja oblasť tzv. vysvetliteľnej umelej inteligencie, ktorá sa snaží prinášať modely alebo nástroje, ktoré správanie systému približujú ľuďom.

S tým súvisí aj otázka súkromia a bezpečnosti. Modely často pracujú s citlivými údajmi o klientoch, pacientoch či používateľoch online služieb. Ak sa s nimi narába nezodpovedne, môže dôjsť k únikom alebo ich zneužitiu. Preto je dôležité uplatňovať zásady ochrany osobných údajov, anonymizácie a šifrovania.

Medzi hlavné riziká a výzvy patrí:

  • reprodukcia predsudkov ukrytých v dátach,
  • nedostatočná transparentnosť a vysvetlenie modelov,
  • ohrozenie súkromia a únik citlivých údajov,
  • nadmerná závislosť spoločnosti od automatizovaných rozhodnutí.

Budúcnosť strojového učenia

Strojové učenie sa stalo jedným z hlavných motorov technologického pokroku posledných rokov a všetko naznačuje, že jeho význam bude rásť. S rozmachom výpočtového výkonu, špecializovaných čipov a dostupnosti veľkých dátových súborov sa otvárajú možnosti, ktoré boli ešte nedávno nemysliteľné. Čoraz viac procesov bude čiastočne alebo úplne automatizovaných, od riadenia dopravy cez výrobu až po služby zákazníkom.

Budúcnosť však nebude závisieť len od technických možností, ale aj od toho, ako sa spoločnosť vyrovná s etickými a právnymi otázkami. Bude potrebné definovať pravidlá zodpovedného používania umelej inteligencie, stanoviť hranice toho, kde možno rozhodovanie prenechať strojom a kde musí mať posledné slovo človek. Strojové učenie tak nie je len technická disciplína, ale aj téma, ktorá sa dotýka filozofie, práva, ekonómie a sociológie.

Náhľadový obrázok: Freepik

Zďielať:
pošli na vybrali.sme.sk


Súvisiace články
Vitajte!
svk.press
Ochrana súkromia

Prevádzkovateľ web stránky Bc. Martin Kolčák, Topoľčianska 5, 851 05 Bratislava. IČO: 54582881. DIČ: 1128172617 používa na tejto webovej stránke súbory cookies, ktoré sú tu použité za účelom merania návštevnosti webu, cielenia reklamy, prispôsobenia zobrazenia webových stránok svk.press. Cookies pre meranie návštevnosti webstránky a prispôsobenie zobrazenia webových stránok sú spracovávané na základe oprávneného záujmu našej spoločnosti. Cookies pre cielenie reklamy sú spracovávané na základe vášho súhlasu.

Údaje, ktoré prevádzkovateľ takto získa, môžu byť sprístupnené ďalším spracovateľom, najmä prevádzkovateľom služieb a platforiem Google a Facebook.

Webové stránky možno používať aj v režime, ktorý neumožňuje zbieranie údajov o správaní návštevníkov webu.

Zbieranie údajov o správaní návštevníkov webu je aktivované z iniciatívy návštevníka webu, vyjadreného aktívnym zaškrtnutím možnosti „Súhlasím“, ktorá nasleduje za upozornením v dolnej časti webovej stránky, znejúcim nasledovne: „Prevádzkovateľ webu svk.press, Bc. Martin Kolčák, Topoľčianska 5, 851 05 Bratislava. IČO: 54582881. DIČ: 1128172617 spracováva na tomto webe cookies potrebné pre fungovanie webových stránok a na analytické účely. “

Súhlas udeľujete na dobu, ktorá je uvedená ďalej pri jednotlivých marketingových cookies. Súhlas so zbieraním údajov súborov cookies pre marketingové účely možno vziať kedykoľvek späť, a to pomocou zmeny nastavenia príslušného internetového prehliadača.

Zhromaždené cookies súbory sú spracované najmä prostredníctvom služby Google Analytics, prevádzkovanú spoločnosťou Google Inc., sídlom 1600 Amphitheatre Parkway, Mountain View, CA 94043, USA.

Zozbierané cookies súbory sú následne spoločnosťou Google Inc. v súlade so Zásadami ochrany súkromia, dostupnými na https://www.google.com/intl/cs/policies/privacy/#nosharing.

Berte prosím v úvahu, že podľa zákona o ochrane osobných údajov máte právo:

1) požadovať od nás informáciu, aké vaše osobné údaje spracovávame,

2) požadovať od nás vysvetlenie ohľadne spracovania osobných údajov,

3) vyžiadať si u nás prístup k týmto údajom a tieto nechať aktualizovať alebo opraviť,

4) požadovať od nás vymazanie týchto osobných údajov – spoločnosť výmaz vykoná, pokiaľ nie je v rozpore s platnými právnymi predpismi a oprávnenými záujmami spoločnosti

5) v prípade pochybností o dodržiavaní povinností súvisiacich so spracovaním osobných údajov obrátiť sa na nás alebo na Úrad na ochranu osobných údajov.