Klasifikācijas izmantošana datu ieguvē

Klasifikācija ir datu ieguves metode, kas kategorijām piešķir datu kolekciju, lai palīdzētu precīzāk prognozēt un analizēt. Sauc arī dažreiz sauc par Lēmuma koks , klasifikācija ir viena no vairākām metodēm, kuras mērķis ir efektīvi analizēt ļoti lielas datu kopas.

Kāpēc klasifikācija?

Ļoti lielas datu bāzes kļūst par normu šodienas pasaulē lieli dati . Iedomājieties datubāzi ar vairākiem terabaitu datiem - viens terabaits triljons datu baiti.

Tikai Facebook katru dienu sadala 600 terabaitiem jaunu datu (no 2014. gada, kad pēdējo reizi ziņoja par šīm specifikācijām). Galvenais lielo datu uzdevums ir tas, kā to saprast.

Un lielākais apjoms nav vienīgā problēma: lielie dati arī mēdz būt dažādi, nestrukturēti un ātri mainīgi. Apsveriet audio un video datus, sociālās mediju ziņas, 3D datus vai ģeotelpiskos datus. Šāda veida dati nav viegli klasificēti vai organizēti.

Lai risinātu šo problēmu, ir izstrādātas vairākas automātiskas metodes noderīgas informācijas iegūšanai klasifikācija .

Kā darbojas klasifikācija?

Pārsniedzot pārāk lielu uzmanību tehniskajam risinājumam, apspriedīsim, kā klasifikācija darbojas. Mērķis ir izveidot klasifikācijas noteikumu kopumu, kas atbildēs uz jautājumu, pieņems lēmumu vai prognozēs uzvedību. Lai sāktu, tiek izstrādāts mācību datu kopums, kurā ir noteikts atribūtu komplekts, kā arī iespējamais rezultāts.

Klasifikācijas algoritma uzdevums ir atklāt, kā šis atribūtu komplekts sasniedz savu secinājumu.

Scenārijs: Iespējams, kredītkaršu kompānija mēģina noteikt, kuras izredzes saņems kredītkaršu piedāvājumu.

Tas varētu būt tā apmācības datu kopums:

**Apmācības dati**

Nosaukums	Vecums	Dzimums	Gada ienākumi	Kredītkartes piedāvājums
John Doe	25	M	$39,500	Nē
Jane Doe	56	F	$125,000	Jā

Slepeni "prognozētājs" Vecums , Dzimums , un Gada ienākumi noteikt "prognozētāja atribūta" vērtību Kredītkartes piedāvājums . Apmācības komplektā ir zināms prognozētāja atribūts. Tad klasifikācijas algoritms mēģina noteikt, kā tiek sasniegta prognozētāja atribūta vērtība: kādas ir attiecības starp prognozējamiem un lēmumu? Tas izstrādās prognozēšanas noteikumu kopumu, parasti IF / THEN paziņojumu, piemēram:

IF (Vecums> 18 VAI Vecums <75) UN GADA IENĀKUMS> 40 000 TAS Kredītkartes piedāvājums = jā

Protams, tas ir vienkāršs piemērs, un algoritms prasīs daudz lielāku datu atlasi nekā šeit redzamie divi ieraksti. Turklāt prognozēšanas noteikumi, visticamāk, būs daudz sarežģītāki, tostarp apakšnoteikumi, lai uztvertu atribūtu datus.

Tālāk algoritms tiek piešķirts analizējamo datu "prognozes kopai", taču šim komplektam trūkst prognozēšanas atribūtu (vai lēmumu):

**Predictor Data**

Nosaukums	Vecums	Dzimums	Gada ienākumi	Kredītkartes piedāvājums
Jack Frost	42	M	$88,000
Mary Murray	16	F	$0

Šie prognozes dati palīdz novērtēt prognozēšanas noteikumu precizitāti, un tad noteikumi tiek precizēti, līdz izstrādātājs uzskata, ka prognozes ir efektīvas un lietderīgas.

Klasifikācijas ikdienas piemēri

Klasifikācija un citas datu ieguves metodes aizņem lielu daļu no mūsu ikdienas pieredzes kā patērētāji.

Laika prognozes var izmantot klasifikāciju, lai ziņotu, vai diena būs lietains, saulains vai duļķains. Medicīnas profesija var analizēt veselības stāvokli, lai prognozētu medicīniskos rezultātus. Klasifikācijas metodes veids, Naive Bayesian, izmanto nosacījumu varbūtību klasificēt surogātpasta vēstules. No krāpšanas atklāšanas līdz produktu piedāvājumiem katru dienu tiek veikta klasifikācija aiz ainas, analizējot datus un sagatavojot prognozes.