Svenska är ett litet språk. För att bygga en artificiell intelligens som förstår mänskligt språk krävs enorma mängder data. Google utvecklade en sådan AI, BERT (Bidirectional Encoder Representations from Transformers), och tränade den på all text på hela Wikipedia på de 70 största språken och en massa digitaliserade böcker – totalt 3,4 miljarder ord. Svenska är tack vare väldigt aktiva användare det tredje största språket på Wikipedia (räknat i antal artiklar) men vår litteratur är betydligt mindre i jämförelse. På internet är endast 0,2 % av allt innehåll på svenska.
För att arbeta med texter på svenska tvingas vi använda flerspråkiga modeller eller modeller för engelska. Resultatet av det blir sällan särskilt bra. ”Delning är omtänksam” översätter Google Translate vår rubrik till, och det illustrerar en stor utmaning med översättning. Vissa fraser har ingen direkt motsvarighet. ”Delad glädje är dubbel glädje” hade kanske passat bättre?
Oavsett översättning tycker vi på Savantic om att dela med oss. Vi vill använda våra kunskaper för att göra det enklare att utveckla AI för svenska. Därför har vi tagit fram öppen källkod, en AI-modell och nya datamängder för språkförståelse på svenska som vi nu delar med oss av!
Alla får använda Savantics alternativa BERT-modell
För att kunna bygga användbara lösningar för automatiserad språkförståelse, NLP (Natural Language Processing), krävs att det finns tillräckligt stora och användbara datamängder att basera lösningarna på. Inom det området har Kungliga biblioteket gjort viktiga insatser. De har publicerat en svensk BERT-modell tränad på deras datamängder.
Men mer arbete krävs både kring att utveckla varianter av BERT som är anpassade för olika ändamål och när det gäller att hitta lämpliga datamängder som kan användas för att utveckla NLP-modeller.
Savantic publicerar nu en alternativ svensk BERT-modell tränad för Q&A (frågor och svar) som ger bättre prestanda. Den är fri att använda. Vi har också utvecklat en svensk version av ett dataset som ofta används för Q&A, SQuAD. Data består av 120 000 fråga-svar-par, ett testdataset med ytterligare 23 000 par och slutligen 91 fråga-svar-par som rör 2020 års Nobelpris. Den sista datamängden är svår och fungerar bra som utvärdering på hur modellen klarar sig i verkligheten. Här finns datamängderna.*
Här finns vår variant av BERT-modellen och eftersom vi delar alla parametrar är det enkelt att själv träna om den. Det möjliggör för dig att finjustera modellen efter eget behov!
Flera av Savantics konsulter har stor erfarenhet av NLP. De har bland annat byggt en NLP-modell som läser patent och förutspår i vilken utsträckning de kommer bli citerade samt visualiserat stora mängder patent baserat på deras innehåll och relation till varandra. Kolla in den här. I visualiseringen är varje patent en punkt. Punkter som ligger nära tillsammans liknar varandra (baserat på den sammanfattande texten som beskriver patentet). Koden finns här.
Vi har också analyserat och extraherat insikter från stora mängder fritextsvar i enkäter, och i ett annat projekt byggde vi NLP för att tolka och förstå forskningsartiklar.
Nya affärsmöjligheter med svensk NLP
Tidigare har svenskan varit en stor begränsning, men med de senaste genombrotten behöver det inte längre bli så kostsamt att bygga NLP-lösningar baserade på svensk fritext. Det öppnar upp stora affärsmöjligheter. Vi kan:
- utveckla våra kundrelationer genom att analysera kundtjänstärenden, reklamationer och feedback. Ärenden kan automatiskt skickas till rätt handläggare. Med NLP kan vi förstå om kunden är upprörd och prioritera att sådana ärenden får snabbast service.
- med automatisk transkribering möjliggöra personlig automatiserad service 24/7 för t.ex. telefonitjänster på ett sätt som inte varit möjligt tidigare.
- förstå vad som skrivs om våra varumärken på sociala medier och agera snabbare och smartare för att fånga upp både positiva och negativa trender. Det ökar vår förståelse för vad som skapar kundnöjdhet.
- tolka avtal för att automatiskt identifiera vilka som behöver uppdateras när ny lagstiftning kommer (t.ex. GDPR).
Slutligen hoppas vi att vår version av BERT och våra dataset kommer att möjliggöra många spännande tjänster inom just Q&A. Exempelvis att ställa frågor till diskmaskinsmanualen när något blivit fel. Idag tvingas vi leta runt efter rätt pdf online, för att sedan få en fil på massor av språk som vi får försöka bläddra i på mobilen. Kan vi bidra till att sådana lösningar blir verklighet genom att vi delar med oss, så är vi mycket nöjda.
Tillsammans höjer vi Sveriges AI-kompetens!
NLP-experten Susumu Okazawa är en av Savantics senaste rekryteringar. Han flyttade med sin familj från Japan för att få arbeta med AI-modellering. Han har även en bakgrund som patentadvokat där han granskat just AI-patent. Susumu är en av konsulterna bakom vår nya BERT-version.
*) På grund av copyright har vi inte släppt den sista datamängden 91 frågor kring 2020-års nobelpris.