TvořeníVysoké školy a univerzity

Co je Corpus lingvistika?

Jen před několika desítkami let automatizovat jazykovou výzkum, vědci mohli nechat jen zdát. Práce byla prováděna ručně, přitahuje velké množství studentů, je zde vysoká pravděpodobnost „nedbalé“ chyby, a co je nejdůležitější - to vše trvalo dlouho, dlouho.

S rozvojem výpočetní techniky se stala možné provést výzkum na řádově rychlejší a dnes je jedním z nejslibnějších směrů při studiu jazyka je korpusu lingvistika. Jeho hlavním rysem je použití velkého množství textových informací, informace do jedné databáze, zvláštním způsobem a zavolal označenou tělo.

K dnešnímu dni existuje mnoho budov vytvořené různé účely na základě různých jazykového materiálu překlenutí milionů až desítek miliard lexikálních jednotek. Tento směr je považován za slibný a ukazuje významný pokrok účely aplikace a výzkumu. Odborníci, tak či onak obchodování s přirozeným jazykem, se doporučuje seznámit se s tělem textů alespoň na základní úrovni.

History of corpus lingvistiky

Tvorba tohoto trendu je kvůli vytvoření Spojených států na Brown těla na počátku 60-tých let minulého století. Sbírka obsahuje texty všech 1 milion slovních tvarů a dnes tělo této velikosti by bylo naprosto nekonkurenceschopné. To je do značné míry kvůli tempu vývoje výpočetní techniky, stejně jako rostoucí poptávku po nových výzkumných zdrojů.

V 90. letech se objevily korpusová lingvistika do plného a samostatný obor, sbírka textů byly vypracovány a označen pro desítek jazyků. V tomto období byla vytvořena, například, britská národní korpus 100 milionů žetonů.

S rozvojem této oblasti lingvistiky, objemy textu jsou stále více a více (a dosáhnout miliardy slovníkových jednotek), a dispozičně je čím dál rozmanitější. K dnešnímu dni, Internet prostor lze nalézt mrtvoly psané a mluvené řeči, vícejazyčný, a učení-orientované umělecké nebo odbornou literaturu, stejně jako mnoho dalších druhů.

Jaké jsou bydlení

Tělesa v těle lingvistice může být z několika důvodů. Intuitivně, je základem pro klasifikaci může být textový jazyk (rusky, německy), režim přístupu (open source, uzavřený, komerční), žánr zdrojového materiálu (hrané, dokumentární, akademické, žurnalistiky).

Zajímavý způsob generuje materiály mluvené řeči. Vzhledem k tomu, úmyslné záznam takového projevu k vytvoření umělého prostředí respondentů a výsledný materiál by neměl být nazýván „spontánní“, moderní korpusová lingvistika se vydal jinou cestou. Dobrovolník je vybaven mikrofonem, a během dne vyrábí záznamy o všech rozhovorů, ve kterých se účastní. Lidé v okolí, samozřejmě, nemusí vědět, že v rámci každodenní konverzace přispívá k rozvoji vědy.

Později obdržel záznam uložen do databáze a jsou doplněny tištěného textu typu transkriptu. Tak je umožněno značkovací potřeba vytvořit orální denní bydlení řeči.

přihláška

Všude tam, kde je to možné použití jazyka, a možná využití budov textů. Metody aplikovat trup v lingvistice může být:

  • Vytvoření program, který stanoví klíč, je široce používán v politice a podnikání sledovat pozitivních a negativních reakcí voličů a zákazníky, resp.
  • Spojení informační systém pro slovníky a překladateli s cílem zlepšit jejich výkonnost.
  • Řada výzkumných úkolů, které přispívají k pochopení jazykové jednotky, historie jejího vývoje a predikci změn v blízké budoucnosti.
  • Vývoj systémů vyhledávání informací na základě morfologických, syntaktických, sémantických a dalšími funkcemi.
  • Optimalizace různých jazykových systémů a dalších.

Využití budov

Podobný zdroj rozhraní s typickou vyhledávače, a vyzve uživatele k zadání slovo nebo kombinace slov pro hledání informační základny. Kromě tvoří přesný dotaz lze použít rozšířené verzi, která umožňuje najít textovou informaci o prakticky jakýchkoliv jazykových kritérií.

Hledání základna může být:

  • příslušnosti k určité skupině slovních druhů;
  • gramatické jevy;
  • sémantika;
  • stylistické a emocionální zbarvení.

Můžete také kombinovat vyhledávací kritéria pro posloupnost slov, například, najít všechny výskyty slovesa v přítomném čase, první osobě jednotného čísla, která přichází po předložce „v“ a podstatným jménem v akuzativu. Řešením takový jednoduchý úkol se uživatel několik sekund a vyžaduje pouze několik kliknutí myší v určených oblastech.

Proces vytváření

Pátrání samo o sobě může být provedena u všech subkorpusu a jeden specificky zvoleny v závislosti na potřebách v dosažení určitého cíle:

  1. Prvním krokem je určit, které texty tvoří základ pro případ. Z praktických důvodů je často používán žurnalistické, novinové zprávy, online komentáře. Výzkumný projekt je využití širokého spektra typů balení, ale text by měl být vybrán v souladu s nějakou společnou řeč.
  2. Výsledná sbírka textů podrobeny předčištění, je oprava chyb, pokud existují, připravuje bibliografické a extra-lingvistické popisu textu.
  3. Je eliminován všechny non-textové informace: Vymaže grafiky, fotografie, tabulky.
  4. Je přidělení tokenů, které jsou obvykle řeč, k dalšímu zpracování.
  5. Nakonec se provádí morfologické, syntaktické a další označení získané množství prvků.

Výsledkem všech provedených transakcí pomocí syntaktické struktury s v něm distribuována množina prvků, z nichž každý je identifikován část řeči, gramatické a, v některých případech, sémantické atributy.

Obtíže při vytváření budov

Je důležité si uvědomit, že nestačí dát dohromady sadu slov nebo vět pro tělo. Na jedné straně, sbírka textů by měla být vyvážená, to znamená, že představují různé typy textů v určitých poměrech. Na druhé straně - obsah uzavřeného prostoru by měly být rozmístěny ve zvláštním způsobem.

První problém je vyřešen dohodou: například ve sbírce patří 60% literárních textů, 20% dokumentů, určité procento dostane písemné prohlášení mluveného jazyka, legislativy, vědeckých prací, atd dnes dokonalý recept je dáno tělo neexistuje ...

Druhá otázka, která se týká rozložení obsahu, řešit náročné. Existují speciální programy a algoritmy používané pro automatické značení textů, ale nedávají perfektní výsledek, může dojít k přerušení a vyžadují manuální přepracovávání. Příležitosti a výzvy při řešení tohoto problému jsou podrobně popsány v publikaci V. P. Zaharova korpusové lingvistiky.

značkovací Text je realizován v několika rovinách, které jsme seznam níže.

morfologické značkování

Ze školy, jsme si uvědomit, že v ruském jazyce, tam jsou různé části řeči, a každý z nich má své vlastní charakteristiky. Například, sloveso kategorie sklonu a čas, ve kterém není podstatné jméno. rodilý mluvčí bez váhání odmítá podstatná jména a slovesa konjugované, ale označit tělo 100 milionů. žetonech manuální práce nebude fungovat. Všechny potřebné operace může provádět počítače, nicméně, pro toho je třeba naučit.

Morfologické značkování, počítač musí „rozumět“ Každé slovo jako určitou část řeči, která má jisté gramatické prvky. Vzhledem k tomu, ruská (a jakýkoli jiný jazyk) provozuje řadu běžných pravidel, je možné vybudovat automatický postup pro morfologickou analýzu, investovat do auta pro řadu algoritmů. Nicméně, tam jsou výjimky z tohoto pravidla, stejně jako různé komplikujících faktorů. Výsledkem je, že čistý počítačová analýza je dnes daleko od ideálu, a dokonce 4% error dává hodnotu 4 milionů. Slova na těle 100 milionů. Jednotek, které vyžadují manuální přepracovávání.

Detailní Kniha popisuje problém Zaharova V. P. „korpusové lingvistiky“.

syntaktická anotace

Rozebrat či analýze - proceduru, která určuje vztah slov ve větě. Pomocí sady algoritmů je možné určit text podmět, přísudek, dodatků, více otáček řeči. Zjistit, která slova jsou hlavní posloupnost, a který - závislí, můžeme efektivně získávat informace z textu a naučit stroj vydávat v odpověď na žádost o vyhledávání pouze informace nás zajímavé.

Mimochodem, moderní vyhledávače použít rozdávat konkrétní čísla namísto dlouhých textů v reakci na příslušné dotazy typu „kolik kalorií v jablko“ nebo „vzdálenosti od Moskvy do Petrohradu.“ Aby však bylo možné pochopit, dokonce i základy postupu popsaném nutností konzultovat „Úvod do korpusové lingvistiky“ nebo jiné základní cvičení.

sémantické značkovací

Sémantika slova - je, zjednodušeně řečeno, na významu. Široce použitelný přístup k sémantické analýzy slovo přiřazování tagů, který odráží jeho příslušnosti k sadě sémantických kategorií a podkategorií. Takové informace jsou důležité pro optimalizaci algoritmů analýzy textu tón, automatické sumarizace a další úkoly, metody korpusové lingvistiky.

Existuje celá řada „root“ stromu, představující abstraktní slovo s velmi širokým sémantiky. Jak jsou tvořeny větev uzlů stromu, který obsahuje více a více specifických lexikální prvky. Například, slovo „zvíře“ může být spojena s takovými pojmy jako „člověk“ a „zvíře“. První slovo bude i nadále rozdělit do různých profesí, požadavky příbuznosti, národnosti a druhý - z tříd a druhů zvířat.

Použití systémů vyhledávání informací

Oblasti využití korpusové lingvistiky pokrývat různé oblasti činnosti. Kryty jsou určeny pro přípravu a korekci slovníků, vytvářet automatizované systémy převodu, anotací, vyhledávání faktů, určující tón a další zpracování textu.

Navíc, tyto zdroje jsou aktivně využívány ve studiu světových jazyků a mechanismů fungování jazyka vůbec. Přístup do velkých objemů předem připraveného informací umožňuje rychlou a komplexní studii o trendech vývoje jazyků, a změna stabilní formace neologismy rychlost řeči hodnoty lexikální jednotky a další.

Vzhledem k tomu, pracovat s takovými velkými objemy dat vyžaduje automatizaci, dnes existuje úzká interakce mezi počítačem a korpusové lingvistiky.

Ruský národní korpus

Tento případ (zkráceně NKRYA) zahrnuje řadu subkorpusu, což umožňuje použití prostředku pro širokou škálu úkolů.

Tyto materiály v databázi jsou rozděleny NKRYA:

  • publikací v 90. letech a 2000s sdělovacích prostředků‘, a to jak tuzemských i zahraničních;
  • nahrávání řeči;
  • aktsentologicheski označené texty (to znamená, že známky stresu);
  • dialekt řeči;
  • poezie;
  • Materiály s syntaktické a jiné značení.

Informační systém zahrnuje také subkorpusu s paralelními překlady děl z ruštiny do angličtiny, němčiny, francouzštiny a mnoho jiných jazyků (a naopak).

Také v databázi je sekce historických textů, které představují písemný projev v ruštině v různých obdobích svého vývoje. K dispozici je také trénink tělo, což může být užitečné pro cizí občany zvládnutí ruského jazyka.

Ruský národní korpus obsahuje 400 milionů lexikální jednotky, a v mnoha ohledech dopředu značné části z jazyků evropských orgánů.

vyhlídky

Skutečnost, ve prospěch uznání tohoto trendu je dostupnost slibných laboratorních korpusu lingvistiku v ruských vysokých škol, stejně jako cizí. S využitím a výzkumu v rámci těchto informací a vyhledávání zdrojů s sebou nese rozvoj určitých oblastí v oblasti špičkových technologií, zodpovídání dotazů systémů, ale je to popsáno výše.

Další rozvoj corpus lingvistiky se předpokládá na všech úrovních, od technického, tak z hlediska zavádění nových algoritmů, které optimalizují procesy vyhledávání a zpracovávání informací, posílení počítačů, více RAM a spotřebiteli, protože uživatelé jsou stále více a více způsobů, jak využít tento typ zdroje v jejich každodenní život a dílo.

na závěr

V polovině minulého století v roce 2017 se zdálo vzdálené budoucnosti, kde kosmické cestovat vesmírem a roboti dělat všechnu práci pro lidi. Ve skutečnosti, věda je plná „bílých míst“ a dělat zoufalé pokusy o zodpovězení otázek lidstva po staletí znepokojující. Otázky fungování jazyka zde zaujímají čestné místo, a skříň a matematická lingvistika nám může pomoci na ně odpovědět.

Zpracování velkých datových souborů může odhalit vzory, dříve nedostupné, předpovídat vývoj specifických jazykových prvků, sledovat tvorbu slov v téměř reálném čase.

Z praktického hlediska, globální skříně lze vidět například jako potenciální nástroj k posouzení náladu veřejnosti - Internet je neustále aktualizován denně různé texty vytvořené pomocí reálných uživatelů: tento komentáře a recenze a články, a mnoho dalších forem řeči.

Kromě toho spolupracuje s orgány přispívají k rozvoji stejný hardware, které se podílejí na získávání informací, známe se službou „Google“ nebo „Yandex“, strojového překladu, elektronických slovníků.

Můžeme s jistotou tvrdit, že korpus lingvistika je pouze první krok, a v blízké budoucnosti bude vzkvétat.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 cs.birmiss.com. Theme powered by WordPress.