reinforcement-learning

Vad är Reinforcement Learning?

Det här inlägget är del fem i serien ”Vad är AI?”. Om du inte redan har läst tidigare inlägg rekommenderas det, för att komma till det första inlägget klicka här.

Nu har vi nått det tredje och sista större sättet att lära en maskin på, låt oss även illustrera detta med ett exempel. Tänk dig ett barn som försöker lära sig att cykla, i början är det svårt, det kanske ramlar eller kommer inte så långt. Men efter varje försök kommer det längre och längre. Barnet känner en typ av belöning desto längre det lyckas att cykla och förbättrar därmed sin metod iterativt för att nå detta, vilket kan ses i bilden nedan. En något komisk förklaring kan även ses i följande video.

Metoden används ofta när det finns ett flertal möjliga handlingar som kopplar till incitament eller mål. En stor fördel är även att träningen sker autonomt, utan behov av externa labels. En nackdel är att algoritmen lär sig iterativt från början för varje problem, vilket betyder att det kan ta lång tid innan det blir en bra lösning. I följande video kan ni se olika typer av tvåbenta varelser som lär sig att gå, där belöningen baseras på hur långt de lyckas att ta sig. Här blir det väldigt tydligt att det är viktigt att träna många gånger (generationer) för att få ett bra resultat.

Tillämpningsområdena är som vanligt många, det som krävs är ett problem som kan utvärderas till någon typ av återkoppling (poäng). Ett vanligt exempel idag är algoritmer i form av artificiella neurala nätverk som lär sig att spela datorspel eller brädspel. I följande video kan ni se en modell som lär sig att spela super mario. Ett annat exempel är hur Googles företag Deepmind med sin modell AlphaGo vann i brädspelet Go över den nuvarande världsmästaren, en stor milstolpe då spelet bygger på intuition.

Andra lite mer användbara tillämpningar är exempelvis inom finans, att handla med aktier givet trender för flera kurser med vinst som poäng. Eller att effektivisera lager och lagerhantering, med en minimering av tid som poäng.

 

Machine Learning, Artificial Intelligence, Reinforcement Learning

Victor Bäckman, Data Scientist, Advectas

Victor Bäckman
victor.backman@advectas.se
Jag som skrivit detta heter Victor och jobbar som Data Scientist på Advectas. Min bakgrund är teknisk fysik på Chalmers och har därefter jobbat på ett start-up i Göteborg. På Advectas har jag haft flera spännande projekt, bland annat inom prediktiv analys (ex. prognoser) och textanalys på svenska. Utöver Advectas har jag även lite av en entreprenöriell sida och drivit ett eget företag i många år.

Alla inlägg av Victor Bäckman

Advectas startar schemalagda utbildningar på de främsta BI-plattformarna

Läs mer om Advectas Academy!