Data mining

Z Multimediaexpo.cz

(Rozdíly mezi verzemi)

Aktuální verze z 19. 9. 2014, 08:55

Data mining ([dejta majnyn], angl. dolování z dat či vytěžování dat) je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat. Někdy se chápe jako analytická součást dobývání znalostí z databází (Knowledge Discovery in Databases, KDD),^[1] jindy se tato dvě označení chápou jako souznačná.

Data mining se používá v komerční sféře (například v marketingu při rozhodování, které klienty oslovit dopisem s nabídkou produktu), ve vědeckém výzkumu (například při analýze genetické informace) i v jiných oblastech (například při monitorování aktivit na internetu s cílem odhalit činnost potenciálních škůdců a teroristů).

Obsah

1 Historie
2 Metodologie data miningu
3 Potenciální nebezpečí data miningu
4 Používané techniky
- 4.1 Problémy
5 Reference
6 Literatura
7 Externí odkazy
- 7.1 Informace
- 7.2 Software

Historie

První náznaky aktivit, které dnes označujeme jako data mining, se objevily v 60. letech 20. století s rozvojem počítačové techniky. Šlo například o využívání regresní analýzy s automatickým výběrem proměnných a prvních rozhodovacích stromů. Většinou však šlo jen o ojedinělé nebo akademické záležitosti.

Rozvoj statistických metod, databázových aplikací a umělé inteligence spolu s rychlým růstem rychlosti a paměti počítačů byly předpoklady, které umožnily v sedmdesátých a osmdesátých letech první systematická využití data miningové metodologie v praxi. Slovní spojení data mining tehdy ovšem stále mělo spíše hanlivý přídech: Označovalo „vyzobávání rozinek“ z dat, hledání korelací ve velkých datových souborech, které – jak známo ze statistické teorie – je vystaveno obrovskému nebezpečí, že „objeví“ pouze nahodilé fluktuace v datech bez možnosti zobecnění a praktického využití.

Obrat přišel počátkem devadesátých let. V té době byly již vybudovány metody, umožňující vyhnout se zmíněnému nebezpečí falešných korelací (například kontrola založená na vynechaných datech nebo na metodě Monte Carlo). Navíc zejména v USA rostla poptávka ze strany komerčních organizací, disponujících již velkými objemy dat a neschopných z nich pomocí klasických tabelačních metod získat potřebné podklady pro rozhodování. To napomohlo k rychlému etablování data miningu jako svébytného oboru aplikované vědy a k jeho širokému použití v komerční praxi. Časté aplikace jsou především v oblastech přímého marketingu (výběr klientů pro oslovení), finančnictví (např. odhadování rizika, hledání podvodů), maloobchodního prodeje (analýza nákupních košíků aj.), telekomunikací (segmentace klientů, prodej programů aj.) a internetového prodeje (analýza přechodů mezi stránkami, efektivity reklamy apod.).

Nárůst aplikací v oblasti data miningu se projevil i na softwarovém a konzultačním trhu. Existuje již poměrně široká nabídka specializovaných softwarů pro tento účel. Vedoucími trhu dataminingových softwarů jsou komerční aplikace SAS Enterprise Miner, SPSS Clementine a STATISTICA Data Miner, mezi známé nekomerční softwary patří Weka a Orange.

Metodologie data miningu

Protože data mining zahrnuje velkou šíři metod a způsobů práce, je obtížné podat jednoznačný návod k postupu. Přesto během 90. let vykrystalizovaly dvě obecné metodologie, které alespoň v hrubých rysech popisují jednotlivé kroky: metodologie SEMMA, za níž stojí firma SAS, a CRISP-DM, vyvinutá konsorciem firem, mezi něž patřil druhý hlavní hráč na trhu, SPSS.

Společnou podstatou všech metodologií je následnost několika kroků:

Obchodní/praktický – formulace úlohy a porozumění problému. Ani automatické vyhledávání znalostí nelze provádět zcela naslepo.
Datový – vyhledání a příprava dat pro analýzu. Statistické algoritmy většinou potřebují data připravená v určité podobě, a proto není možné použít přímo surových dat z obchodních databází.
Analytický – hledání informace v datech, vytváření statistických modelů a podobně. Využívají se nejrůznější metody od jednoduchých tabelací a vizualizací až po sofistikované přístupy jako je genetické programování. Asi nejčastěji používanými metodami však jsou logistická regrese s automatickým výběrem proměnných, rozhodovací stromy a neuronové sítě. Výstup této fáze bývá dvojí: Jednak obecnější znalosti (např. že svobodní klienti nejčastěji nakupují pozdě večer, zatímco ženatí po obědě), jednak matematické modely (např. postup, jak vytipovat potenciálního klienta pro daný produkt).
Aplikační – zjištěné poznatky a modely je třeba uvést do praxe, například spuštěním reklamní kampaně nebo reorganizací webových stránek.
Kontrolní – je třeba zajistit zpětnou vazbu (jak efektivní byla obchodní akce) a v případě dlouhodobě nasazovaných modelů i kontrolovat, zda model příliš nezestárl a zachovává si svoji efektivitu.

Potenciální nebezpečí data miningu

Protože komerční data mining představuje často masivní a inteligentní zpracování osobních údajů, vznikají často obavy ze zneužití těchto informací.

Kromě obvyklých negativ spojených se shromažďováním osobních údajů, jako je záměrný i nezáměrný únik dat a jejich využití k různým nečestným aktivitám od spamu až po vydírání, zde teoreticky hrozí i specifické zneužití statistických technik. Lze si například představit zločince, který si pomocí analýzy dat vytipovává své oběti.

Zdá se však, že toto nebezpečí je – alespoň v současném stavu data miningu – nepatrné. I kdyby se náhodou zločinci dostali k využitelným osobním datům, pravděpodobně by jim použití sofistikovaných statistických metod příliš nepomohlo, už proto, že by jim chyběla databáze „pozitivních příkladů“ úspěšných zločinů, na níž by mohli své modely postavit.

Za větší potenciální nebezpečí lze považovat technologie, k jejichž vzniku data mining přispívá v akademické sféře. Například dekódování genomu může být použito k nehumánním selekcím osob podobným eugenice, ale postaveným na vědeckém základě. Anebo pokročilé metody identifikace osob mohou být spolu s kamerovými systémy používány ke špehování pohybu občanů.

Používané techniky

rozhodovací stromy
asociační pravidla
neuronové sítě
regresní analýza
shluková analýza (pro marketingovou segmentaci)

Problémy

Ze správných dat, použijeme-li správný způsob dobývání, dostaneme správné výsledky. Proto by dobývání dat mělo být založeno na správných datech. Nicméně protože se používají statistické metody, tak výsledky jsou tzv. statisticky správně, tj. s malou pravděpodobností odvodíme chybné výsledky (falešně pozitivní).

Dobývání typicky neodhalí všechny souvislosti schované v datech.

I z nesmyslných dat, například špatně připravených anebo náhodných dat dostaneme nějaké výsledky. Je možné dostat i výsledky, co vypadají smysluplně. Smetí dovnitř, smetí ven (angl. Garbage In, Garbage Out - GIGO).

Reference

↑ BERKA, Petr. Dobývání znalostí z databází. Praha : Academia, 2003. ISBN 80-200-1062-9.

Literatura

BERKA, Petr. Dobývání znalostí z databází. Praha : Academia, 2003. ISBN 80-200-1062-9. S. 366.

Externí odkazy

Informace

Software

Stránky producentů softwaru obsahují často i řadu obecnějších informací (případové studie, zkušenosti klientů apod.)

Commons nabízí fotografie, obrázky a videa k tématu
Data mining

Náklady na energie a provoz naší encyklopedie prudce vzrostly. Potřebujeme vaši podporu... Kolik ?? To je na Vás. Náš FIO účet — 2500575897 / 2010
Informace o článku. Článek je převzat z Wikipedie, otevřené encyklopedie, do které přispívají dobrovolníci z celého světa. Tento text je dostupný za podmínek Creative Commons 3.0 Unported – creativecommons.org. Originální článek na české Wikipedii

[0] BERKA, Petr. Dobývání znalostí z databází. Praha : Academia, 2003. ISBN 80-200-1062-9.

[1]

@@ Řádka 1: / Řádka 1: @@
-{{Wikipedia-cs|Data mining|700}}
+'''Data mining''' ([dejta majnyn], angl. ''dolování z dat'' či ''vytěžování dat'') je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných [[informace|informací]] z dat. Někdy se chápe jako analytická součást ''[[dobývání znalostí z databází]]'' (Knowledge Discovery in Databases, KDD),<ref>{{Citace monografie
+ | příjmení = Berka
+ | jméno = Petr
+ | rok = 2003
+ | titul = Dobývání znalostí z databází
+ | vydavatel = Academia
+ | místo = Praha
+ | stránky =
+ | isbn = 80-200-1062-9
+}}</ref> jindy se tato dvě označení chápou jako souznačná.
+Data mining se používá v komerční sféře (například v [[marketing]]u při rozhodování, které klienty oslovit dopisem s nabídkou produktu), ve vědeckém výzkumu (například při analýze genetické informace) i v jiných oblastech (například při monitorování aktivit na [[internet]]u s cílem odhalit činnost potenciálních škůdců a teroristů).
+== Historie ==
+První náznaky aktivit, které dnes označujeme jako data mining, se objevily v 60. letech [[20. století]] s rozvojem počítačové techniky. Šlo například o využívání [[regresní analýza|regresní analýzy]] s automatickým výběrem proměnných a prvních [[rozhodovací stromy|rozhodovacích stromů]]. Většinou však šlo jen o ojedinělé nebo akademické záležitosti.
+Rozvoj statistických metod, databázových aplikací a [[umělá inteligence|umělé inteligence]] spolu s rychlým růstem rychlosti a paměti počítačů byly předpoklady, které umožnily v sedmdesátých a osmdesátých letech první systematická využití data miningové metodologie v praxi. Slovní spojení ''data mining'' tehdy ovšem stále mělo spíše hanlivý přídech: Označovalo „vyzobávání rozinek“ z dat, hledání [[korelace|korelací]] ve velkých datových souborech, které – jak známo ze [[statistika|statistické]] teorie – je vystaveno obrovskému nebezpečí, že „objeví“ pouze nahodilé fluktuace v datech bez možnosti zobecnění a praktického využití.
+Obrat přišel počátkem devadesátých let. V té době byly již vybudovány metody, umožňující vyhnout se zmíněnému nebezpečí falešných korelací (například [[Diskriminační analýza#Odhady pravděpodobností správné klasifikace|kontrola]] založená na vynechaných datech nebo na metodě Monte Carlo). Navíc zejména v USA rostla poptávka ze strany komerčních organizací, disponujících již velkými objemy dat a neschopných z nich pomocí klasických tabelačních metod získat potřebné podklady pro rozhodování. To napomohlo k rychlému etablování data miningu jako svébytného oboru aplikované vědy a k jeho širokému použití v komerční praxi. Časté aplikace jsou především v oblastech přímého marketingu (výběr klientů pro oslovení), finančnictví (např. odhadování rizika, hledání podvodů), maloobchodního prodeje (analýza nákupních košíků aj.), telekomunikací (segmentace klientů, prodej programů aj.) a internetového prodeje (analýza přechodů mezi stránkami, efektivity reklamy apod.).
+Nárůst aplikací v oblasti data miningu se projevil i na softwarovém a konzultačním trhu. Existuje již poměrně široká nabídka specializovaných softwarů pro tento účel. Vedoucími trhu dataminingových softwarů jsou komerční aplikace SAS Enterprise Miner, [[SPSS]] Clementine a STATISTICA Data Miner, mezi známé nekomerční softwary patří [[Weka]] a [[Orange (software)|Orange]].
+== Metodologie data miningu ==
+Protože data mining zahrnuje velkou šíři metod a způsobů práce, je obtížné podat jednoznačný návod k postupu. Přesto během 90. let vykrystalizovaly dvě obecné metodologie, které alespoň v hrubých rysech popisují jednotlivé kroky: metodologie ''SEMMA'', za níž stojí firma SAS, a ''[[CRISP-DM]]'', vyvinutá konsorciem firem, mezi něž patřil druhý hlavní hráč na trhu, SPSS.
+Společnou podstatou všech metodologií je následnost několika kroků:
+* '''Obchodní/praktický''' – formulace úlohy a porozumění problému. Ani automatické vyhledávání [[znalost]]í nelze provádět zcela naslepo.
+* '''Datový''' – vyhledání a příprava dat pro analýzu. [[Statistický algoritmus|Statistické algoritmy]] většinou potřebují data připravená v určité podobě, a proto není možné použít přímo surových dat z obchodních databází.
+* '''Analytický''' – hledání informace v datech, vytváření [[statistický model|statistických modelů]] a podobně. Využívají se nejrůznější metody od jednoduchých tabelací a vizualizací až po sofistikované přístupy jako je [[genetické programování]]. Asi nejčastěji používanými metodami však jsou [[logistická regrese]] s automatickým výběrem proměnných, [[rozhodovací strom]]y a [[neuronová síť|neuronové sítě]]. Výstup této fáze bývá dvojí: Jednak obecnější ''znalosti'' (např. že svobodní klienti nejčastěji nakupují pozdě večer, zatímco ženatí po obědě), jednak matematické ''modely'' (např. postup, jak vytipovat potenciálního klienta pro daný produkt).
+* '''Aplikační''' – zjištěné poznatky a modely je třeba uvést do praxe, například spuštěním reklamní kampaně nebo reorganizací webových stránek.
+* '''Kontrolní''' – je třeba zajistit zpětnou vazbu (jak efektivní byla obchodní akce) a v případě dlouhodobě nasazovaných modelů i kontrolovat, zda model příliš nezestárl a zachovává si svoji efektivitu.
+== Potenciální nebezpečí data miningu ==
+Protože komerční data mining představuje často masivní a inteligentní zpracování osobních údajů, vznikají často obavy ze zneužití těchto informací.
+Kromě obvyklých negativ spojených se shromažďováním osobních údajů, jako je záměrný i nezáměrný únik dat a jejich využití k různým nečestným aktivitám od [[spam]]u až po vydírání, zde teoreticky hrozí i specifické zneužití statistických technik. Lze si například představit zločince, který si pomocí analýzy dat vytipovává své oběti.
+Zdá se však, že toto nebezpečí je – alespoň v současném stavu data miningu – nepatrné. I kdyby se náhodou zločinci dostali k využitelným osobním datům, pravděpodobně by jim použití sofistikovaných statistických metod příliš nepomohlo, už proto, že by jim chyběla databáze „pozitivních příkladů“ úspěšných zločinů, na níž by mohli své modely postavit.
+Za větší potenciální nebezpečí lze považovat technologie, k jejichž vzniku data mining přispívá v akademické sféře. Například dekódování genomu může být použito k nehumánním selekcím osob podobným [[Eugenika|eugenice]], ale postaveným na vědeckém základě. Anebo pokročilé metody identifikace osob mohou být spolu s kamerovými systémy používány ke špehování pohybu občanů.
+== Používané techniky ==
+* [[rozhodovací stromy]]
+* [[asociační pravidla]]
+* [[neuronové sítě]]
+* [[regresní analýza]]
+* [[shluková analýza]] (pro marketingovou segmentaci)
+=== Problémy ===
+Ze správných dat, použijeme-li správný způsob dobývání, dostaneme správné výsledky. Proto by dobývání dat mělo být založeno na správných datech. Nicméně protože se používají [[testování statistických hypotéz|statistické metody]], tak výsledky jsou tzv. ''[[Statistická významnost|statisticky správně]]'', tj. s malou pravděpodobností odvodíme chybné výsledky (falešně pozitivní).
+Dobývání typicky neodhalí všechny souvislosti schované v datech.
+I z nesmyslných dat, například špatně připravených anebo náhodných dat dostaneme nějaké výsledky. Je možné dostat i výsledky, co vypadají smysluplně. ''Smetí dovnitř, smetí ven'' (angl. Garbage In, Garbage Out - GIGO).
+== Reference ==
+<references />
+== Literatura ==
+* {{Citace monografie
+ | příjmení = Berka
+ | jméno = Petr
+ | rok = 2003
+ | titul = Dobývání znalostí z databází
+ | vydavatel = Academia
+ | místo = Praha
+ | stránky = 366
+ | isbn = 80-200-1062-9
+}}
+== Externí odkazy ==
+=== Informace ===
+* [http://kdnuggets.com/ KDnuggets – on-line čtrnáctideník o data miningu (anglicky)]
+* [http://www.data-mining-guide.net/ Průvodce data miningem (anglicky)]
+* [http://themanagement.de/Knowledgebase/Marketing/Datamining.htm Themanagement.de – sbírka článků (německy)]
+* [http://www.crisp-dm.org/ CRISP-DM: Cross Industry Standard Process for Data Mining (anglicky)]
+* [http://www.eruditionhome.com/datamining/ Eruditionhome – rozcestník (anglicky)]
+* [http://www.crm2day.com/data_mining/ CRM Today (anglicky)]
+* [http://www.dwreview.com/Data_mining/index.html Data Warehousing Review o Data miningu (anglicky)]
+* [http://www.acm.org/sigs/sigkdd/ SIGKDD – sdružuje vědce v oblasti, pořádá konference (anglicky)]
+* [http://www-users.cs.umn.edu/~kumar/Presentation/sc2001.html Data Mining for Scientific and Engineering Applications – Tutorial (anglicky)]
+* [http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=software.html MLnet – on-line seznam softwaru]
+* [http://www.msps.cz/data-mining/ Poskytovatel data miningu]
+* [http://www.datamind.cz/ Specialisté na data mining]
+* [http://www.linuxexpres.cz/business/open-source-nastroje-pro-data-mining Open-source nástroje pro data mining] - recenze programů Orange, KNIME a RapidMiner v magazínu [[LinuxEXPRES]]
+=== Software ===
+Stránky producentů softwaru obsahují často i řadu obecnějších informací (případové studie, zkušenosti klientů apod.)
+* [http://www.bayesia.com/ Bayesia – komerční]
+* [http://sourceforge.net/projects/ferda Ferda DataMiner - společné vizuální prostředí pro procedury dataminingu, nekomerční, český produkt]
+* [http://lispminer.vse.cz/index.html LISp-Miner – nekomerční, český produkt]
+* [http://www.megaputer.com/ Megaputer – komerční]
+* [http://miner3d.com/about.html Miner3D (vizualizace) – komerční, slovenský produkt]
+* [http://minitab.com/ Minitab – komerční];[http://www.scacp.cz/cz/minitab-software/ české stránky jsou zde]
+* [http://magix.fri.uni-lj.si/orange/ Orange – nekomerční]
+* [http://www.r-project.org/ R – free software environment for statistical computing and graphics]
+* [http://www.salford-systems.com/ Salford Systems – komerční]
+* [http://www.sas.com SAS – komerční]; [http://www.sas.com/offices/europe/czech/ české stránky jsou zde]
+* [http://www.spss.com SPSS – komerční]; [http://www.acrea.cz české stránky jsou zde]
+* [http://www.statsoft.com STATISTICA Data Miner – komerční]; [http://www.statsoft.cz české stránky jsou zde]
+* [http://chirouble.univ-lyon2.fr/~ricco/tanagra/ Tanagra – nekomerční]
+* [http://www.cs.waikato.ac.nz/ml/weka/ WEKA – nekomerční]
+* [http://yale.cs.uni-dortmund.de YALE – nekomerční]
+{{Commonscat}}{{Článek z Wikipedie}}
 [[Kategorie:Umělá inteligence]]
 [[Kategorie:Statistika]]
 [[Kategorie:Informatika]]