Pelin idea on arvata päivän salainen sana käyttämällä semanttisen samankaltaisuuden pisteitä vihjeinä. Peli määrittelee jokaiselle arvauksellesi samankaltaisuuspisteet, jotka ovat välillä -100 ja 100. Mitä lähempänä pisteet ovat 100:a, sitä samankaltaisempi arvaamasi sana on semanttisesti salaisen sanan kanssa. Semanttisella samankaltaisuudella tarkoitetaan tässä pelissä sitä, että sanat esiintyvät samanlaisissa konteksteissa. Kirjoitusasulla ei siis välttämättä ole mitään tekemistä semanttisen samankaltaisuuden kanssa.
Kaikki salaiset sanat ovat perusmuodossa, alkavat pienellä kirjaimella ja ne koostuvat vain yhdestä sanasta. Salaiset sanat voivat olla substantiiveja, adjektiiveja, verbejä tai adverbeja, mutta voit syöttää arvauksissasi minkä tahansa sanaluokan sanoja. Taulukon "Joko polttaa?"-sarake näyttää, kuinka lähellä arvauksesi on – arvauksen ollessa tuhannen lähimmän sanan joukossa luku ja vihreä palkki kertovat, kuinka lähellä olet. Mitä suurempia ne ovat, sitä lähempänä olet.
Tarvitset luultavasti kymmeniä yrityksiä löytääksesi salaisen sanan. Jos jäät jumiin, voit myös käyttää taulukon alta löytyvää vinkkipainiketta. Voit käyttää enintään 15 vinkkiä yhden pelin aikana. Salainen sana vaihtuu joka päivä klo 0:00 Suomen aikaa.
Semanttuli pohjautuu Semantleen, alkuperäiseen englanninkieliseen versioon, jonka on luonut David Turner.
Semanttuli-sovellus on nyt myös ladattavissa Android-laitteille Google Play Kaupasta!
Sanojen semanttisen samankaltaisuuden laskemiseen käytetään ns. sanavektoreita (tunnetaan myös sanaupotteina). Sanavektorit ovat keino esittää sanojen merkityksiä numeraalisessa muodossa. Ne on luotu hyödyntämällä Word2vec-algoritmia ja raakaa tekstidataa. Lisää tietoa Word2vecistä löydät esimerkiksi täältä. Kahden sanan samankaltaisuus saadaan laskemalla niiden sanavektorien välinen kosinisamankaltaisuus (engl. cosine similarity).
Semanttuli käyttää TurkuNLP-tutkimusryhmän luomia sanavektoreita. Word2vec-malli on nimeltään finnish_s24_skgram_lemmas.bin. Sanavektorit ovat 300-ulotteisia ja ne on koulutettu Suomi24-verkkoyhteisöstä peräisin olevalla datalla. Sanat on lemmatisoitu (eli muutettu ns. perusmuotoon), minkä takia esimerkiksi sanalle "nukun" ei löydy sanavektoria, eikä se täten voi olla salainen sana.
Eilisen sana oli . Sitä lähimpänä olivat
Otin 5000 yleisintä sanavektorien harjoitusdatassa esiintynyttä sanaa, sekoitin ne ja poistin kaikki, jotka koostuivat enemmän kuin yhdestä sanasta tai kuuluivat väärään sanaluokkaan. Myös joitakin kyseenalaisia sanoja on siivottu pois.
Kyllä. Klikkaamalla ensimmäisen sarakkeen yläosassa olevaa "#"-merkkiä, saat arvaukset siihen järjestyksen, missä olet syöttänyt ne. Klikkaamalla sitä uudestaan saat käänteisen järjestyksen. "Arvaus"-sanaa klikkaamalla saat arvaukset aakkosjärjestykseen. Uuden arvauksen syöttäessäsi arvaukset järjestetään selkeyden vuoksi taas samankaltaisuuden mukaan.
Et.
Kyllä, ainakin englanniksi, ruotsiksi, hepreaksi, espanjaksi, portugaliksi, ranskaksi, saksaksi (toinen versio), turkiksi, venäjäksi, hollanniksi ja koreaksi.