Kuinka Google BERT Vs. Smithin algoritmit toimivat yhdessä - Semalt-yleiskatsaus




Google julkaisi äskettäin tutkimusartikkelin heidän uudesta NLP-algoritmistaan ​​SMITH. Tämä artikkeli valaisi monia SEO-ammattilaisia ​​muutoksista, jotka edellyttävät SERP-sijoituksen nousua tai pudotusta. Siitä huolimatta huolemme on, miten tämä uusi SMITH-algoritmi vertautuu BERT: ään?

Googlen julkaisemassa artikkelissa he väittivät, että SMITH ylittää BERT: n ymmärtämällä pitkiä hakukyselyjä ja pitkiä asiakirjoja. Mikä tekee SMITHistä niin mielenkiintoisen, on se, että se ymmärtää asiakirjan kohtia samalla tavalla kuin mitä BERT tekee sanoilla ja lauseilla. Tämän SMITHin parannetun ominaisuuden avulla se voi helposti ymmärtää pidempiä asiakirjoja.

Mutta ennen kuin menemme pidemmälle, meidän on ilmoitettava sinulle, että SMITH ei tällä hetkellä ole Googlen algoritmeissa. Mutta jos spekulaatiomme ovat oikeita, se käynnistetään ohitusindeksoinnin rinnalla tai se edeltää sitä. Jos olet todella kiinnostunut oppimaan sijoittumaan SEP: lle, koneoppiminen menisi väistämättä rinnalle tähän kiinnostukseen.

Joten palataan aiheeseen, onko BERT tulossa korvaamaan? Eikö useimmat verkossa olevat asiakirjat, jotka ovat laajoja, kestäviä ja jotka sen vuoksi toimivat paremmin SMITHin kanssa?

Hypätään eteenpäin ja katsotaan, mitä olemme tehneet. SMITH voi lukea sekä vankkoja että ohuita asiakirjoja. Ajattele sitä kuin Bazooka. Se voi aiheuttaa suuria vahinkoja se voi myös avata ovia.

Aloittaa, miksi BERT tai SMITH?

Todellinen kysymys on, miksi hakukone vaatii luonnollista oppimiskäsittelyä hakutulosten tarjoamiseksi. Vastaus on yksinkertainen. Hakukoneet tarvitsevat NLP: n siirtyessään hakukoneiden merkkijonojen tai avainsanojen ymmärtämisestä asioihin tai verkkosivuihin.

Jos Googlella ei ole aavistustakaan, mitä muuta sivulla voi olla paitsi avainsanat tai onko indeksoitavalla sisällöllä edes merkitystä hakulausekkeen suhteen. NLP: n ansiosta Google voi ymmärtää hakukyselyyn kirjoitettujen merkkien kontekstin.
NLP: n ansiosta Google pystyy erottamaan käyttäjän aikomukset, kun he sanovat "jokiranta" ja "pankkitili". Se voi myös ymmärtää lausuntoja, kuten "Caroline tapasi ystäviensä kanssa drinkin, juomien, pintin, ale, panimon" luonnottomina.

SEO-asiantuntijoina meidän on sanottava, että hakukyselyjen ymmärtäminen on edennyt pitkälle. Uskomme parhaiten, että aiemmin oli liian vaikeaa löytää oikeita artikkeleita Internetistä.

Ymmärtäminen BERT

BERT toimii tällä hetkellä parhaimpana NLP-mallina, jota meillä on monille, ellei useimmille sovelluksille, varsinkin kun on kyse monimutkaisten kielirakenteiden ymmärtämisestä. Monien mielestä ensimmäinen Bidirectianal-merkki on suurin harppaus eteenpäin tässä algoritmissa. Sen sijaan, että algoritmi lukisi vasemmalta oikealle, BERT voi myös ymmärtää sanat suhteessa kontekstiinsa. Tällä tavoin se ei antaisi tuloksia kyselyyn asetetuista yksittäisistä sanoista, mutta indeksoi verkkosivuja hakukyselyssä olevien sanojen kollektiivisen merkityksen perusteella.

Tässä on esimerkki ymmärryksen helpottamiseksi:

TRUKKISSA ON VALO.

Jos tulkitsisit tuota lausuntoa vasemmalta oikealle, saavuttaessasi sanan "kevyt" luokitaisit kuorma-auton johonkin valoa sisältävään. Tämä johtuu siitä, että kuorma-auto tuli ennen lausunnon valoa.

Mutta jos haluamme luokitella asiat kuorma-autoihin, voimme jättää "kevyen", koska emme törmää siihen ennen "kuorma".

On vaikea ajatella lausuntoa vain yhteen suuntaan.

Lisäksi BERT: llä on myös toinen erityinen hyöty siitä, että se on niin merkittävä, ja se mahdollistaa kielen tehokkaan käsittelyn alhaisemmilla resurssikustannuksilla verrattuna aiempiin malleihin. Tämä on todellakin tärkeä tekijä, joka on otettava huomioon, kun sitä halutaan soveltaa koko verkkoon.

Tunnusten käyttö on jälleen yksi kehitys, joka on seurannut BERT: ää. BERT: ssä on 30000 merkkiä, ja kukin näistä edustaa yhteistä sanaa, jossa on pari ylimääräistä merkkiä merkille ja fragmenteille, jos sana on 30000: n ulkopuolella.

BERT pystyi käsittelemään merkkejä ja muuntajia ymmärtämään sisältöä, mikä antoi sille myös kyvyn ymmärtää lauseita riittävästi.

Joten jos sanomme, "nuori nainen meni rannalle. Hän myöhemmin istui joen rannalla ja tarkkaili joen virtausta".

BERT määrittää näille lauseille erilaiset arvot, koska ne viittaavat kahteen eri asiaan.

Ymmärtäminen SMITH

Sitten tulee SMITH, algoritmi, jolla on paremmat resurssit ja numerot suurempien asiakirjojen käsittelyyn. BERT käyttää noin 256 tunnusta asiakirjaa kohden, ja kun se ylittää tämän kynnyksen, laskentakustannukset nousevat liian korkeiksi optimaalista toimintaa varten. SMITH pystyy sitä vastoin käsittelemään enintään 2248 tunnusta asiakirjaa kohden. Se on noin kahdeksankertainen BERT: n käyttämien merkkien määrä.

Ymmärtääksemme, miksi laskentakustannukset nousevat yhdessä NLP-mallissa, on ensin pohdittava, mitä lauseen ja kappaleen ymmärtäminen vaatii. Lausetta käsiteltäessä on ymmärrettävä vain yksi yleinen käsite. Toisiinsa liittyviä sanoja on vähemmän, joten sanojen ja heidän muistissaan olevien ajatusten välillä on vähemmän yhteyksiä.

Tekemällä lauseita kappaleiksi näiden sanojen välinen yhteys lisääntyy huomattavasti. Käsittelee 8X tekstiä, joka vaatii useita kertoja nopeuden ja muistin optimointikapasiteetin samalla mallilla. Täällä SMITH tekee kaiken eron jakamalla ja tekemällä paljon offline-käsittelyä. Mielenkiintoista on, että SMITH toimii edelleen BERT: n toimiakseen oikein.

Tässä on kuvaus siitä, kuinka SMITH ottaa asiakirjan ytimeen:
  1. Se jakaa asiakirjan ensin ryhmiin, joita on helpompi hallita.
  2. Sitten se käsittelee jokaisen lauseen lohkon erikseen.
  3. Muuntaja oppii sitten kunkin lohkon kontekstuaalisen esityksen, minkä jälkeen se muuttaa ne asiakirjan esitykseksi.

Kuinka SMITH toimii?

SMITH-mallin kouluttamiseksi opimme BERT: ltä kahdella tavalla:

BERTin kouluttamiseksi lauseesta poistetaan sana, ja vaihtoehtoiset vaihtoehdot toimitetaan

Paremmin koulutettu BERT onnistuu valitsemaan oikean vaihtoehdon tarjotuista vaihtoehdoista paremmin. Esimerkiksi, jos BERT: lle annetaan lause:

Iloinen ruskea ------ hyppäsi aitauksen yli.
  • Vaihtoehto yksi - tomaatit.
  • Vaihtoehto kaksi - koira.
Mitä paremmin BERT on koulutettu, sitä paremmat mahdollisuudet valita oikea vaihtoehto on vaihtoehto.

Tätä harjoitusmenetelmää sovelletaan myös SMITH: ssä.

SMITH on koulutettu suurille asiakirjoille

Mitä paremmin koulutettu SMITH on, sitä paremmat mahdollisuudet tunnistaa jätetyt lauseet. Se on sama idea BERT: n kanssa, mutta erilainen sovellus. Tämä osa on erityisen mielenkiintoinen, koska se maalaa maailman, jossa Googlen luomat sisällöt on koottu yhteen aidattuihin hakukoneiden tulossivuihin. Tietysti käyttäjät voivat lähteä, mutta eivät, koska Google voi koota lyhyen ja pitkäkestoisen sisällön kaikista parhaista lähteistä tulossivulleen.

Jos olet epävarma tämän tapahtumisesta, sinun pitäisi tietää, että se on jo alkanut tapahtua, ja vaikka he eivät ole vielä oppineet sitä, se on alku.

Onko SMITH parempi kuin BERT?

Kaiken lukemasi mukaan on täysin luonnollista olettaa, että SMITH on parempi, ja monissa tehtävissä se on todella parempi. Mutta mieti, kuinka käytät Internetiä hetkeksi; mitä kysymyksiä kirjoitat säännöllisesti hakulausekkeisiin?
  • "Mikä on tämän päivän sääennuste?"
  • "Ohjeet ravintolaan".
Tällaisiin hakukyselyihin vastaaminen vaatii yleensä lyhyttä sisältöä, joka sisältää usein rajallista ja mutkatonta tietoa. SMITH on paremmin mukana ymmärtämään pidempiä ja monimutkaisempia asiakirjoja sekä pitkiä ja monimutkaisia ​​hakukyselyjä.

Tähän sisältyy useiden asiakirjojen ja aiheiden kokoaminen vastausten luomiseksi. Se määrittää, miten sisältö voidaan jakaa, mikä antaa Googlelle mahdollisuuden tietää oikea asia näytettäväksi. Se auttaa Googlea ymmärtämään, miten sisällön sivut liittyvät toisiinsa, ja se tarjoaa asteikon, jolla linkkejä voidaan arvioida muiden etujen joukossa.

Tämän sanottuamme lopuksi sanomme, että sekä BERT että SMITH ovat tärkeitä, ja ne molemmat palvelevat ainutlaatuista tarkoitustaan.

Johtopäätös

Vaikka SMITH on basooka, tarvitsemme sitä maalata selkeä kuva siitä, miten asiat yhdessä ovat. Resursseissa se maksaa enemmän, koska se tekee isomman työn, mutta se maksaa paljon vähemmän kuin BERT samaa työtä tehdessään.

BERT auttaa SMITHia ymmärtämään lyhyitä kyselyitä ja pieniä sisältöpalasia. Tämä tapahtuu kuitenkin, kunnes Google kehittää toisen NLP-algoritmin, joka korvaa molemmat, ja sitten siirrymme ja saamme kiinni uudesta SEO-kehityksestä.

Kiinnostaako SEO? Tutustu muihin artikkeleihimme Semalt-blogi.