Čo je dolovanie dát? Základy a jej techniky.

Obsah:

Čo je dolovanie dát? Základy a jej techniky.
Čo je dolovanie dát? Základy a jej techniky.

Video: Čo je dolovanie dát? Základy a jej techniky.

Video: Čo je dolovanie dát? Základy a jej techniky.
Video: High Density 2022 - YouTube 2024, Apríl
Anonim

Založenie štvrtej priemyselnej revolúcie bude do značnej miery závisieť údaje a konektivita. Analýza služieb schopný rozvíjať alebo vytvárať riešenia na dolovanie údajov, bude v tomto ohľade zohrávať kľúčovú úlohu. Mohlo by to pomôcť pri analýze a predpovedaní výsledkov správania zákazníkov pri nákupe zacielených na potenciálnych kupujúcich. Údaje sa stanú novými prírodnými zdrojmi a proces extrakcie relevantných informácií z týchto netriedených údajov bude mať obrovský význam. Ako také, správne pochopenie termínu - Dolovanie údajov, jeho procesy a aplikácie nám môžu pomôcť pri rozvíjaní holistického prístupu k tomuto slovu.

Základy dolovania dát a jej techniky

Image
Image

Data mining, tiež známy ako Zisťovanie vedomostí v údajoch (KDD) je o vyhľadávaní veľkých skladov údajov na odhalenie vzorov a trendov, ktoré presahujú jednoduchú analýzu. Toto však nie je jednostupňové riešenie, ale viacstupňový proces a dokončené v rôznych fázach. Tie obsahujú:

1] Zber a príprava údajov

Začína sa zhromažďovaním údajov a ich správnou organizáciou. To pomáha výrazne zlepšiť šance nájsť informácie, ktoré sa dajú zistiť prostredníctvom dolovania dát

2] Modelovanie a hodnotenie modelov

Druhým krokom v procese dolovania dát je aplikácia rôznych modelovacích techník. Tieto sa používajú na kalibráciu parametrov na optimálne hodnoty. Použité techniky závisia vo veľkej miere od analytických schopností, ktoré sú potrebné na riešenie rozsahu organizačných potrieb a na dosiahnutie rozhodnutia.

Skúmajte niektoré techniky dolovania údajov stručne. Zistilo sa, že väčšina organizácií skombinuje dve alebo viac techník dolovania údajov, aby vytvorili vhodný proces, ktorý spĺňa ich obchodné požiadavky.

prečítať: Čo je to veľké údaje?

Techniky dolovania údajov

  1. Združenie - Združenie je jednou z najznámejších techník získavania dát. Podľa toho sa vzor rozčlení na základe vzťahu medzi položkami v tej istej transakcii. Preto je tiež známy ako technika vzťahov. Veľké maloobchodné značky sa spoliehajú na túto techniku pri výskume zákazníckych zvykov / preferencií. Napríklad pri sledovaní nákupných návykov ľudí môžu maloobchodníci zistiť, že zákazník vždy kupuje krém pri nákupu čokolády, a preto naznačujú, že pri ďalšom nákupu čokolády si môžu tiež kúpiť krém.
  2. klasifikácia - Táto metóda ťažby dát sa líši od vyššie uvedeného spôsobom, ktorý je založený na strojovom vzdelávaní a využíva matematické techniky, ako je lineárne programovanie, rozhodovacie stromy, neurónové siete. Pri klasifikácii sa spoločnosti pokúšajú vybudovať softvér, ktorý sa môže naučiť klasifikovať dátové položky do skupín. Napríklad spoločnosť môže v aplikácii definovať klasifikáciu, ktorá "vďaka všetkým záznamom zamestnancov, ktorí ponúkli odstúpenie od spoločnosti, predvídať počet osôb, ktoré pravdepodobne v budúcnosti odstúpia od spoločnosti." Podľa tohto scenára spoločnosť môže klasifikovať záznamy zamestnancov do dvoch skupín, a to "dovolenka" a "pobyt". Potom môže používať softvér na dolovanie dát na klasifikáciu zamestnancov do samostatných skupín vytvorených skôr.
  3. clustering - Rôzne objekty vykazujúce podobné vlastnosti sú zoskupené v jednom klastri pomocou automatizácie. Mnohé takéto zhluky sú vytvorené ako triedy a objekty (s podobnými charakteristikami) sú umiestnené do toho podľa toho. Aby sme to lepšie porozumeli, uvažujme o príklade správy kníh v knižnici. V knižnici je rozsiahla zbierka kníh plne katalogizovaná. Položky rovnakého typu sú uvedené spolu. To nám uľahčuje nájsť knihu, ktorá nás zaujíma. Podobne pomocou klastrovacej techniky môžeme uchovávať knihy, ktoré majú nejaké druhy podobností v jednom klastri a priradiť im vhodný názov. Takže ak čitateľ chcel chytiť knihu dôležitú pre jeho záujem, musí ísť len do tejto poličky, namiesto toho, aby vyhľadal celú knižnicu. Technika zoskupovania definuje triedy a kladie predmety do každej triedy, zatiaľ čo v klasifikačných technikách sú objekty priradené do vopred definovaných tried.
  4. predpoveď - Predpoveď je technológiou dolovania údajov, ktorá sa často používa v kombinácii s inými technikami dolovania údajov. Zahŕňa analýzu trendov, klasifikáciu, zosúladenie vzoru a vzťahu. Analýzou minulých udalostí alebo inštancií v správnom poradí je možné bezpečne predpovedať budúcu udalosť. Napríklad technika predikčnej analýzy môže byť použitá pri predaji na predikciu budúceho zisku, ak sa predaj zvolí ako nezávislá premenná a zisk ako premenná závislá od predaja. Potom na základe historických údajov o predaji a zisku možno nakresliť namontovanú regresnú krivku, ktorá sa používa na predikciu zisku.
  5. Rozhodovacie stromy - V rámci rozhodovacieho stromu začíname jednoduchou otázkou, ktorá má viac odpovedí. Každá odpoveď vedie k ďalšej otázke, ktorá pomôže klasifikovať alebo identifikovať údaje tak, aby ich bolo možné kategorizovať, alebo aby bolo možné predpovedať na základe každej odpovede. Napríklad, použijeme nasledujúci rozhodovací strom na určenie toho, či chceme hrať kriket ODI: Strom rozhodovania o získavaní údajov: Od začiatku koreňového uzla, ak prognóza počasia predpovedá dážď, potom by sme sa mali vyhnúť zápasu za deň. Prípadne, ak je predpoveď počasia jasná, mali by sme hrať zápas.

Data Mining je jadrom úsilia v oblasti analýzy v rôznych odvetviach a disciplínach ako je komunikácia, poisťovníctvo, vzdelávanie, výroba, bankovníctvo a maloobchod a ďalšie. Správna informácia o nej je preto dôležitá pred tým, ako sa použijú rôzne techniky.

Odporúča: