Open Data Science Conference 2018 – Advectas var på plats

I början av maj gick ODSC av stapeln i Boston, USA. Vi var tre personer från Advectas som åkte över till staterna för att delta med nästan 5000 andra Data Scientists. Denna konferens är nischad åt open-source verktyg inom just Data Science. Stort fokus låg därav på tillämpningar av befintliga och nya Machine Learning bibliotek till Python och R. Men det som var mest intressant var att höra hur andra använder Machine Learning idag och hur de gör det, därav kommer vi gå igenom lite highlights nedan.

Klassificera fake-news nyhetsartiklar. Mike Tamir, Head of Data Science på Uber Advanced Technology Group (ATG), berättade hur han med kollegor skapat en modell som kan klassificera om en text är fake-news eller inte. Med fake-news menar man att texten försöker anspela på känslor mer än den är journalistisk eller faktabaserad. Detta har de gjort genom att träna en modell med miljontals olika typer av texter på internet. Alltifrån blogginlägg till vetenskapliga texter. För den tekniskt kunnige är modellen en Seq2Seq (nätverk av Bi-LSTM) med attention samt en klassificerare på slutet. Lösningen finns att använda som ett plug-in till Chrome eller Firefox. Den fungerar endast på engelska och ger en prediktion på ”hur fake” artikeln är. Häftig och nyttig tillämpning av avancerad textanalys tycker vi!

Hur TripAdvisor rangordnar hotellen i dina sökningar. Många av oss har säkert använt TripAdvisor för att hitta hotell eller saker att göra. Tjänsten bygger på att användare lämnar omdömen efter att de besökt en sevärdhet eller ett hotell. Detta gör att TripAdvisor har väldigt mycket data i form av text om attraktioner som är kopplade till dem. Ett vanligt problem för bokningssidor och liknande är att veta vilka objekt som ska visas i en sökning för en specifik användare. Detta baserat på användarens historiska sökningar, köp och annan data. Ett klassiskt sätt att jämföra hotell är att jämföra svart på vitt vad de erbjuder, exempelvis – Har de pool? Hur långt är det till centrum? Eller, vad är priset per natt? Utöver detta använder TripAdvisor även avancerad textanalys på alla omdömen per hotell för att få en matematisk tolkning av själva omdömena för det hotellet. Denna tolkning kan sedan användas för att jämföra olika hotell avseende vad användare faktiskt säger om hotellet. Detta är inte bara häftigt, utan även lönsamt! För TripAdvisor genererade den nya rekommendationsmotorn en ökning av CTR (Click Through Rate, antal klick) av hotell på hela 12%. Detta ledde i sin tur till en ökning av omsättningen på 4%, vilket förmodligen inte är en liten summa för ett företag som TripAdvisor.

GAN’s – Generative Adversarial networks, eller GAN’s är en av de hetaste trenderna inom Machine Learning och speciellt bildanalys. Det klassiska användningsfallet av bildanalys är att utifrån en bild extrahera en viss typ av information (är det en katt eller hund på bilden, hur gammal är personen på bilden etc.). Man ”stoppar in” en bild och man får ut någon typ av klassificering. GAN’s har istället en tvådelad struktur, där den andra delen är en genererande del. Den kan alltså användas för att generera bilder som liknar bilder den har sett tidigare. Exempel som har gjorts här är att generera en målning av Mona Lisa ifall van Gogh hade målat den istället för Leonardo da Vinci, eller som i bilden nedan; generera bilder på fåglar utifrån en beskrivande text.

GAN’s har funnits några år men kvalitén har helt klart blivit bättre och bilderna har blivit mer övertygande. Intressant tycker vi!       

Conversational AI
Ett otroligt hett område inom Deep Learning och Natural Language Processing (NLP) är dialogdriven kommunikation. De flesta människor har säkert stött på Apple Siri eller Google Assistant, vilka är två exempel på produkter som använder sig av en enkel dialog eller konversation för att kommunicera med användare. Den som har använt dessa tjänster kanske märker att det är en bit kvar tills det går att använda i större utsträckning än att ringa en vän, ställa väckarklockan eller göra en sökning online. En av presentationerna som vi besökte handlade precis om detta, Conversational AI, en dialogdriven modell som förstår språk och innehar kontext och omgivande förståelse. Learning-based Goal-oriented Dialogue är en teknik som består av flera delar. Först och främst behövs språkförståelse – att från talat eller skrivet språk få semantik och förståelse för vad användaren menar. Konversationshantering som kan kommunicera med tredjepartssystem för att ställa frågor och hitta information från t.ex. en databas. Sen att kunna omvandla denna information och inneha semantik till samma ursprungsspråk för att presenteras till användaren. En implementation som verkar lovande är Latent Intention Dialogue Model (Wen et al, ICML 2017), som med hjälp av flera delar uppbyggda av neurala nätverk lyckas både förstå, hantera samt generera frågor från en användare via text. En kortfattad teknisk beskrivning lyder: En Representational Construction modul som består av Long short-term memory (LSTM) celler modellerar avsikt och förståelse. Från avsikten som liknar en encoding för en seq2seq modell, skapas en intern query som används för att fråga en ”databas” likt klassificering med ett vanligt Feedforward neural network (FFNN). Ett Policy Network i form av ytterligare ett FFNN används för att reagera på datan som hittades av queryn. Resultatet av Policy Network används sedan via en LSTM för att generera svarstexten från systemet. Denna implementation ger väldigt imponerande resultat, inte alls svårt för en människa att kommunicera med. Den lyckas förstå kontext, ställer frågor om den saknar information samt följer upp information över en längre konversation.

Presentationen var väldigt intressant, verkligen i framkant av forskningen kring detta område, vi längtar själva till att kunna kommunicera med system liknande denna för att lösa vardagliga problem.

Avslutningsvis var det en väldigt trevlig resa med en intressant konferens med Boston som en fin värdstad! Om du har frågor kring inlägget får du gärna kontakta mig genom att skicka ett email till victor.backman@advectas.se.

  

Victor Bäckman, Data Scientist, Advectas

Victor Bäckman
victor.backman@advectas.se

Jag som skrivit detta heter Victor och jobbar som Data Scientist på Advectas. Min bakgrund är teknisk fysik på Chalmers och har därefter jobbat på ett start-up i Göteborg. På Advectas har jag haft flera spännande projekt, bland annat inom prediktiv analys (ex. prognoser) och textanalys på svenska. Utöver Advectas har jag även lite av en entreprenöriell sida och drivit ett eget företag i många år.

Alla inlägg av Victor Bäckman

Är du vår nästa stjärna? Det går bra för Advectas och vi söker dig som brinner för beslutsstöd!

Läs mer om rollerna vi söker