OPUS
Z Multimediaexpo.cz
OPUS (Open Source Parallel Corpus) je projekt, zabývající se zpracováním vícejazyčných textů za účelem získání dat, která lze následně využít například při rozšiřování slovníků či strojovém překladu.
Náplň projektu
K samotnému zpracování dochází výhradně strojově, za použití několika open source nástrojů. OPUS sám o sobě je balík pod licencí open source. Při zpracování v podstatě dochází především k přiřazení odpovídajících si vět v různých jazycích k sobě. Podle povahy dokumentů je tak získáno velké množství dat, ve kterých je několik vět mezi stejnými jazyky překládáno často mnoha způsoby, nezřídka je vyhodnocována i situace, kdy je jediná věta v jednom jazyce přeložena několika větami jazyka druhého. K dosažení kýženého výsledku je využíváno různých heuristik, v závislosti mimo jiné i na povaze zpracovávaných dokumentů. Lingvisté vzorky výsledků ohodnotili ve valné většině správností přesahující 80%, často je výsledek i 100%, a to dokonce i při srovnávání jazyků, jako jsou bulharština a holandština.[zdroj ?]
Příklady již zpracovaných dat
Součástí projektu se stalo zpracování několika zdrojů dokumentů, dostupných ve více jazycích. Výsledky zpracování, jakož i mnoho dalších informací a dokumentů, jsou dostupné na serveru projektu. Například při zpracování databáze filmových titulků, poskytnuté serverem opensubtitles.org, bylo získáno 361 souborů, obsahujících dvojjazyčné zarovnané texty. Zpracovávané texty byly ve 30 různých jazycích a celkem bylo zpracováno 20400 filmových titulků, obsahujících 22268624 větných fragmentů.
Externí odkazy
Náklady na energie a provoz naší encyklopedie prudce vzrostly. Potřebujeme vaši podporu... Kolik ?? To je na Vás. Náš FIO účet — 2500575897 / 2010 |
---|
Informace o článku.
Článek je převzat z Wikipedie, otevřené encyklopedie, do které přispívají dobrovolníci z celého světa. |