Kaj je korpusna lingvistika?

Pred nekaj desetletji so znanstveniki lahko samo sanjali o avtomatizaciji jezikovnih raziskav. Delo je bilo opravljeno ročno, veliko število študentov je bilo vključenih v to, obstaja velika verjetnost napake "z nezadovoljstvom", in kar je najpomembnejše - vse je bilo veliko, zelo veliko časa.

Vsebina

Zgodovina korpusnega jezikoslovja
Kakšna so telesa
Uporaba
Uporaba ohišij
Postopek ustvarjanja
Težave pri ustvarjanju zgradb
Morfološko označevanje
Sintaktična oznaka
Semantična oznaka
Uporaba sistemov za pridobivanje informacij
Narodna stavba ruskega jezika
Možnosti
Na koncu

Z razvojem računalniške tehnologije je bilo mogoče študije narediti hitreje po velikosti, danes pa eno najbolj obetavnih področij v študiji jezika je korpusna lingvistika. Njena glavna značilnost je uporaba velikih količin besedilnih informacij, združenih v eno samo bazo podatkov, posebej označena in imenovana za telo.

Do danes je veliko različnih stavb ustvarjenih za različne namene, na podlagi različnih jezikovnih gradiv, ki zajemajo od milijonov do več deset milijard leksikalnih enot. Ta smer je priznana kot obetavna in dokazuje pomemben napredek pri doseganju uporabnih in raziskovalnih ciljev. Strokovnjaki, ki se nekako ukvarjajo z naravnim jezikom, je priporočljivo, da se seznanite s korpusom besedil, vsaj na osnovni ravni.

Zgodovina korpusnega jezikoslovja

Formiranje te smeri je povezano z nastankom Brown Corps v ZDA v zgodnjih šestdesetih letih prejšnjega stoletja. Zbirka besedil je vsebovalo le 1 milijon obrazcev besed, danes pa bo korpus te velikosti popolnoma nekonkurenčen. To je v veliki meri posledica hitrosti razvoja računalniških tehnologij in naraščajočih potreb po novih raziskovalnih virih.

V devetdesetih letih je bila korpusna lingvistika oblikovana v polnopravni in neodvisni disciplini, zbirke besedil pa so bile zbrane in označene za več desetine jezikov. V tem obdobju je bil na primer British National Corps ustvarjen za 100 milijonov uporab.

korpusna lingvistika

Ker se ta jezikovna lingvistika razvija, se obseg besedil postaja vse več (in doseže milijarde besednih enot), postavitev pa postaja vse bolj raznolika. Do danes lahko v spletnem prostoru najdete primer pisnega in govornega govora, večjezičnega in poučnega, ki je usmerjen v umetniško ali akademsko literaturo, pa tudi na številne druge sorte.

Kakšna so telesa

Vrste primerov v kabinetskem jezikoslovju je mogoče predstaviti iz več razlogov. Intuitivno, lahko podlaga za razvrščanje je jezik besedila (rusko, nemško), način dostopa (open source, zaprto, poslovna), žanr izvornega materiala (igrani, dokumentarni, akademik, novinarstvo).

metode korpusnega jezikoslovja

Zanimiv način je ustvarjanje materialov, ki predstavljajo ustni govor. Ker namerno snemanje takega govora bi ustvarilo umetne pogoje za anketirance, in nastalega materiala ni bilo mogoče imenovati »spontano«, je sodobna korpusna lingvistika imela drugačno pot. Prostovoljec je opremljen z mikrofonom in čez dan se zabeležijo vsi pogovori, v katerih sodeluje. Okoli ljudje seveda ne morejo vedeti, da med pogovorom v gospodinjstvu prispevajo k razvoju znanosti.

Kasneje se prejete zvočne posnetke shranijo v bazo podatkov in jih spremlja natisnjeno besedilo glede na vrsto prepisa. Tako je mogoče narediti oznako, potrebno za ustvarjanje telesa ustnega vsakdanjega govora.

Uporaba

Kjer je uporaba jezika možna, je mogoče uporabiti tudi polja z besedilom. Namen uporabe metod trupa v jezikoslovju je lahko:

Vzpostavite programe za ugotavljanje tonov, ki se dejavno uporabljajo v politiki in podjetju, da bi spremljali pozitivne in negativne odzive volivcev in strank.
Povezovanje informacijskega sistema z slovarji in prevajalci za izboljšanje njihove učinkovitosti.
Različne raziskovalne naloge, ki prispevajo k razumevanju strukture jezika, zgodovine njegovega razvoja in napovedi njene spremembe v bližnji prihodnosti.
Razvoj informacijskih sistemov, ki temeljijo na morfoloških, sintaktičnih, semantičnih in drugih značilnostih.
Optimizacija dela različnih jezikovni sistemi in drugi.

Uporaba ohišij

Vmesnik vira je podoben tipičnemu iskalniku in uporabnika pozove, naj v bazo podatkov poišče besedo ali kombinacijo besed. Poleg natančnega obrazca za zahtevo lahko uporabite razširjeno različico, ki vam omogoča, da najdete besedilne informacije za skoraj vsa jezikovna merila.

računalniško in sodno jezikoslovje

Podlaga za iskanje je lahko:

ki pripadajo določeni skupini delov govora;
slovnični znaki;
semantika;
slogovno in čustveno barvanje.

Prav tako lahko kombinirate iskalne kriterije za zaporedje besed, na primer, da bi našli vse pojavitve glagola v sedanjiku, prvi osebi ednine, ki prihaja po predlogom "v" in samostalnika v tožilnik primeru. Rešitev takšne preproste naloge traja nekaj sekund za uporabnika in zahteva le nekaj klikov v določenih poljih.

Postopek ustvarjanja

Sama iskanja se lahko izvede tako na vseh podokorah kot tudi na eni, posebej izbrani, odvisno od potreb po doseganju določenega cilja:

Najprej je določeno, katera besedila bodo podlaga za primer. Za praktične namene pogosto uporabljajo novinarske, časopisne materiale, internetne komentarje. Različne vrste ograjenih prostorov se uporabljajo pri raziskovalnih projektih, vendar je treba besedila izbrati glede na nekatere skupne razloge.
Izhajajoč sklop besedil je predmet predprocesiranja, popravljene so napake, če obstaja, pripravljen je bibliografski in ekstra-jezikovni opis besedila.
Vse netekstične informacije so izbrisane: grafike, slike, tabele so izbrisane.
Obstaja izbor žetonov, ki običajno predstavljajo besede, za nadaljnjo obdelavo.
Na koncu se uresniči tudi morfološka, sintaktična in druga označba nastalega sklopa elementov.

Rezultat vseh izvedenih operacij je sintaktična struktura z množico elementov, ki se razdelijo nad njim, za vsako od njih pa je del govora definiran, slovnično in v nekaterih primerih tudi semantične lastnosti.

Težave pri ustvarjanju zgradb

Pomembno je razumeti, da ni dovolj zbirati veliko besed ali stavkov, da bi dobili primer. Po eni strani mora biti zbiranje besedil uravnoteženo, to pomeni, da predstavljajo različne vrste tekstov v določenih razmerjih. Po drugi strani mora biti vsebina primera posebej označena.

zaharov korpus jezikoslovje

Prvi problem je rešen s pogodbo: na primer, v zbirki ima 60% literarnih besedil, 20% dokumentarcev, ki je določen odstotek dati pisno predstavitev govorjenega jezika, zakonodaje, znanstvenih del, itd popoln recept uravnoteženo telo, danes ne obstaja ...

Drugo vprašanje o označevanju vsebine je težje rešiti. Obstajajo posebni programi in algoritmi, ki se uporabljajo za samodejno označevanje, vendar ne dajejo 100-odstotnega rezultata, lahko povzročijo napake in zahtevajo ročno revizijo. Podrobnosti in težave pri reševanju tega problema so podrobneje opisane v Zakharovem delu o korpusnem jezikoslovju.

Razlaga besedila poteka na več ravneh, ki smo jih navedli spodaj.

Morfološko označevanje

Iz šolske klopi se spominjamo, da so v Ruski različni deli govora, vsaka od njih pa ima svoje posebnosti. Na primer, glagol ima kategorije razpoloženja in časa, ki jih samostalnik nima. Native govornik se ne okleva, da bi poklonil samostalke in konjugiral glagole, vendar ročno delo ne bo delovalo, da bi primer označilo v 100 milijonih besedah. Vse potrebne operacije lahko izvaja računalnik, vendar je za to potrebno učiti.

Morfološko označevanje je nujno, da računalnik "razume" vsako besedo kot določen del govora z določenimi slovničnimi značilnostmi. Ker v Ruskem jeziku deluje več pravilnih pravil (tako kot v kateremkoli drugem jeziku), lahko z avtomatskim postopkom za morfološko analizo investiramo več algoritmov v stroj. Vendar pa obstajajo izjeme od pravil, kot tudi različni zapleteni dejavniki. Kot rezultat, čista računalniška analiza danes še zdaleč ni idealna in celo 4% napak daje 4 milijone besed na primer do 100 milijonov enot, ki zahtevajo ročno revizijo.

Podrobno je ta problem opisal VP Zakharov "Korpusov jezikoslovje".

Sintaktična oznaka

Razčlenjevanje ali razčlenjevanje je postopek, ki določa razmerje besed v stavek. S pomočjo množice algoritmov postane mogoče v besedilu definirati subjekt, predikat, dodatke, različne zavoje govora. Če ugotovimo, katere besede v zaporedju so glavne in ki so odvisne, lahko učinkovito izvlečemo informacije iz besedila in stroj usposabljamo za izdajo le informacij, ki nas zanimajo kot odgovor na iskalno poizvedbo.

Laboratorij za korpusno jezikoslovje na ruskih univerzah

Mimogrede sodobni iskalniki uporabljajo to, da namesto dolgih besedil dajo določene številke kot odziv na ustrezna vprašanja, kot je "koliko kalorij v jabolku" ali "razdalja od Moskve do Petersburga". Vendar, da bi razumeli tudi sami osnove opisanega procesa, se boste morali seznaniti z "Uvodom v korpusno lingvistiko" ali drugo osnovno učno pomoč.

Semantična oznaka

Semantika besede je v preprostem smislu njen pomen. Široko uporaben pristop v semantični analizi je dodelitev besednih oznak, ki odražajo njegovo pripadnost nizu semantičnih kategorij in podkategorij. Takšne informacije so koristne za optimizacijo algoritmov za analizo tonalnosti besedila, avtomatsko abstrahiranje in druge naloge, ki uporabljajo metode korpusne lingvistike.

Obstajajo številne "korenine" drevesa, ki so abstraktne besede, ki imajo zelo široko semantiko. Kot ta drevesna veja se oblikujejo vozlišča, ki vsebujejo vse bolj specifične leksične elemente. Na primer, beseda "biti" je lahko povezana s pojmi, kot sta "človek" in "žival". Prva beseda bo še naprej razvejana na različne poklice, v srodstvu s sosedom, v narodnosti, druga pa na razrede in vrste živali.

Uporaba sistemov za pridobivanje informacij

Področja uporabe korpusne lingvistike pokrivajo široko paleto področij dejavnosti. Primeri se uporabljajo za sestavljanje in popravljanje slovarjev, ustvarjanje avtomatskih prevajalskih sistemov, povzetek, dejstva izvlečkov, določanje ključa in druge obdelave besedil.

korpusne lingvistične vrste telesa

Poleg tega se ti viri aktivno uporabljajo pri proučevanju svetovnih jezikov in mehanizmih delovanja jezika kot celote. Dostop do velikega števila vnaprej pripravljenih informacij omogoča operativno in celovito preučevanje trendov v razvoju jezikov, oblikovanje neologizmov in stabilnega govornega prometa, spremembe vrednosti leksikalnih enot,

Ker delo s tako velikimi količinami podatkov zahteva avtomatizacijo, danes obstaja tesna interakcija med računalniškim in korpusnim jezikoslovjem.

Narodna stavba ruskega jezika

Ta stavba (skrajšana NKRN) vključuje številne podkorpe, ki omogočajo uporabo virov za reševanje številnih nalog.

Materiali v podnožju NKRN so razdeljeni:

o objavi v medijih 90-ih in 2000-ih tako domačih kot tujih;
zapisi ustnega govora;
izrazito označena besedila (npr. z oznakami glede stresa);
narečni govor;
pesniška dela;
materiali s skladenjskim označevanjem itd.

Informacijski sistem vključuje tudi podkorpe z vzporednimi prevodi del iz ruskega v angleščino, nemščino, francoščino in številne druge jezike (in nazaj).

Tudi v zbirki podatkov je del zgodovinskih besedil, ki predstavljajo pisni govor v ruskem jeziku v različnih obdobjih njenega razvoja. Obstaja tudi izobraževalna stavba, ki je lahko koristna za tuje državljane pri obvladovanju ruskega jezika.

Nacionalni korpus ruskega jezika vključuje 400 milijonov leksikalnih enot in v mnogih pogledih presega precejšen del jezikovnih zgradb Evrope.

Možnosti

Dejstvo, da laboratoriji korpusnega jezikoslovja na ruskih univerzah, pa tudi tujih, obetavne, je dejstvo, da priznavamo to smer. Z aplikacijo in raziskavami v okviru obravnavanih informacijskih in iskalnih virov je vključen razvoj nekaterih področij na področju visoke tehnologije, sistemov za vprašanja in odgovore, toda to je bilo obravnavano zgoraj.

zgodovina korpusnega jezikoslovja

Nadaljnji razvoj korpusnega jezikoslovja je predvidena na vseh ravneh, od tehničnega in v smislu izvajanja novih algoritmov, ki optimizirajo procese iskanje in obdelavo informacij, ki pooblašča računalnikov, več RAM-a, in do potrošnika, saj so uporabniki več načinov za uporabo te vrste virov v njihovo vsakodnevno življenje in delo.

Na koncu

Sredi prejšnjega stoletja je bil leta 2017 daljna prihodnost, v kateri vesoljsko plovilo plough razsežnosti vesolja in roboti opravljajo vse delo za ljudi. Dejansko je znanost bogata z "bele lise" in obupno poskuša odgovoriti na vprašanja, ki so stoletja težko človeštvo. Vprašanja delovanja jezika tu zasedajo častno mesto, korpuskularno in računalniško jezikoslovje pa nam lahko pomaga odgovoriti.

Obdelava velikih nizov podatkov omogoča odkrivanje vzorcev, ki niso prej na voljo, napovedujejo razvoj določenih jezikovnih funkcij, spremljajo oblikovanje besed v realnem času.

Na praktični ravni, lahko globalne ohišja videli, na primer, kot potencialno orodje za oceno javno razpoloženje - Internet je nenehno posodablja dnevno različne besedila, ki jih realno ustvarili uporabniki: Ta komentarje in kritike, in člankov, in mnogi drugi oblika govora.

Poleg tega delo s korpusom prispeva k razvoju istih tehničnih sredstev, ki sodelujejo pri iskanju informacij, vemo o storitvah "Google" ali "Yandex", strojnega prevajanja, elektronskih slovarjev.

Lahko se samoumevno trdimo, da korpusna lingvistika naredi le prve korake, v bližnji prihodnosti pa se bo hitro razvijala.

Zdieľať na sociálnych sieťach:

Príbuzný