JumpStart, data science, advanced analytics

En inblick i Facebooks forskningslabb – Project LASER för språkoberoende textanalys

Inom textanalys har under senaste åren begreppet word2vec vunnit mark. Word2vec står för ”word to vector” och handlar om att man översätter ord till vektorer – en serie med tal som beskriver ordets betydelse. Vektorn blir då som ett fingeravtryck för ordet, och man kan använda det för att hitta liknande ord, men även addera och subtrahera ord för varandra (ett klassiskt exempel är att vektorerna: ”kung” – ”man” + ”kvinna” är väldigt lik vektorn för ”drottning”). Om man lägger samman vektorerna för alla ord i en mening eller ett helt dokument får man den s.k. dokumentvektorn, som då blir ett slags fingeravtryck för meningen.

Nya möjligheter
Detta öppnar många spännande möjligheter för textanalys – användningsfallen som idag är bygger på detta är att klassificera dokument, hitta liknande dokument, matcha exempelvis CV’n mot sökningar, som input till spam-filter med mera.

Om man har en ansenlig mängd text kan man bygga en sådan här modell själv, men det finns också förtränade modeller som många gånger ger en bra start. Exempelvis FacebookResearch har ett projekt som heter fastText, som har förtränade modeller för inte mindre än 157 olika språk (i skrivande stund). Det finns flera andra liknande projekt, som exempelvis GloVe och SpaCy där man kan ladda ner förtränade modeller.

Begränsningar
En begränsning med detta är att det krävs en modell per språk – är det svensk text gäller modellen tränad på svensk text. Försöker man analysera text på annat språk än det språk modellen tränats på blir resultaten inget vidare. Men det finns stort värde i att kunna jämföra dokument på olika språk – till exempel att kunna ha en språk-agnostisk cv-sökning. Tidigare har den vanliga approachen varit att översätta all text till ett visst språk (läs engelska) genom t.ex. Google Translate’s API, och sen använda en modell tränad för engelsk text. Men det har sina begränsningar, främst i svarstider, att översättning inte alltid blir perfekt, och att datan kan behöva skickas till en tredje part. Det sista är en show-stopper för många kunder med känslig data.

Allt detta gör att FacebookResearch’s projekt LASER (Language-Agnostic SEntence Representations)[1] är väldigt spännande. Projektet blev publikt i januari i år, är förvisso fortsatt under vidareutveckling men erbjuder att göra språkoberoende textanalys. Man behöver inte ange vilket språk texten är på, och enligt FacebookResearch själva kan man blanda olika språk i en och samma mening [2]. Teknologin som används under ytan är Deep Learning i absoluta forskningsfronten, och används av Facebook själva för att analysera inlägg på olika språk på deras sociala nätverk. Det bygger också på framsteg bland annat Google gjort inom Neural Machine Translation [3].

LASER innebär ett framsteg inom doc2vec och textanalys. Det innebär att vi kan enklare kan hantera flera språk, och dra mer information från textmassor. Detta är särskilt värdefullt för små länder som Sverige, där de flesta företag har text på olika språk blandat. Exakt vad projektet föder för nya initiativ vet vi ännu inte, men från tester vi gjort med LASER pekar på att projektet har stor potential. Stay tuned!

[1] https://github.com/facebookresearch/LASER

[2] https://research.fb.com/downloads/laser-language-agnostic-sentence-representations/

[3] bl.a. https://ai.google/research/pubs/pub45610

Mer om Data Science  Kontakta oss

GustavEklund

Gustav Eklund
gustav.eklund@advectas.se
Mitt namn är Gustav Eklund, Data Scientist på Advectas. Jag är utbildad civilingenjör med tonvikt inom strukturmekanik och statistik, samt civilekonom från SU och har tidigare jobbat på IBM med bland annat Watson-plattformen. Sedan 2016 har jag varit delaktig i projekt främst mot detaljhandel och industri och är sedan 2018 kompetensområdesansvarig för området Data Science. På fritiden är jag ofta i löparspåret, på rullskidor eller seglar, men det händer även att jag spelar gitarr eller sköter om min surdeg. Född och uppvuxen i Stockholm och för närvarande bosatt i Bromma.

Alla inlägg av Gustav Eklund

Så lyckas ni med er Self Service BI-resa

Läs broschyren här.