Datu ieguve ar K-līdzekļu klasterizāciju

The k- ir klasterizācijas algoritms ir datu ieguves un mašīnlasīšanas rīks, ko izmanto, lai apkopotu novērojumus saistīto novērojumu grupās, iepriekš nezinot šīs attiecības. Ar paraugu ņemšanu algoritms mēģina parādīt, uz kuru kategoriju vai klasteru pieder dati, ar klasteru skaitu nosaka vērtību k

The k- ir algoritms ir viens no visvienkāršākajiem klasterizācijas paņēmieniem, un to parasti izmanto medicīniskās attēlveidošanas, biometrijas un saistītās jomās. Priekšrocība k- ir tas, ka tas saka par jūsu datiem (izmantojot savu nekontrolētu formu), nevis par algoritma norādīšanu par datiem sākumā (izmantojot algoritma uzraudzīto formu).

To dažreiz dēvē par Lloids algoritmu, it īpaši datorzinātņu aprindās, jo standarta algoritmu pirmo reizi ierosināja Stuarts Lloids 1957. gadā. Terminu "k-līdzekļi" 1967. gadā ieviesa Džeimss McQueens.

Kā K-veida algoritma funkcijas

The k- nozīmē algoritms ir evolucionārs algoritms, kas iegūst savu nosaukumu no tā darbības metodes. Algoritma apvieno novērojumus k grupas, kur k tiek sniegts kā ievades parametrs. Pēc tam katrs novērojums tiek piešķirts klasteriem, pamatojoties uz novērojuma tuvumu klastera vidējam rādītājam. Pēc tam klastera vidējā vērtība tiek atkārtoti aprēķināta, un process sākas no jauna. Lūk, kā algoritms darbojas:

Algoritms tiek patvaļīgi izvēlēts k norāda kā sākotnējos klasteru centrus (līdzekļus).
Katrs datu kopas punkts tiek piešķirts slēgtajai klasterim, pamatojoties uz Eiklīda attālumu starp katru punktu un katru klastera centru.
Katrs klasteru centrs tiek pārrēķināts kā vidējais punktu skaits šajā klasterī.
2. un 3. solis atkārtojas, līdz klasteri saplūst. Konverģence var tikt definēta atšķirīgi atkarībā no ieviešanas, bet tas parasti nozīmē, ka vai nu novērojumi neveido kopas, kad 2. un 3. posms tiek atkārtoti, vai ka izmaiņas būtiski neietekmē klasteru definīciju.

Klustru skaita izvēle

Viens no galvenajiem trūkumiem k- ir kopu veidošana ir fakts, ka jums ir jānorāda klasteru skaits kā algoritma ievade. Kā paredzēts, algoritms nespēj noteikt atbilstošu klasteru skaitu un ir atkarīgs no tā, kā lietotājs iepriekš to identificē.

Piemēram, ja jums būtu grupa cilvēku, kas jāapkopo, pamatojoties uz binārā dzimuma identitāti kā vīrieti vai sievieti, izsaucot k- ir algoritms, kas izmanto ievadi k = 3 piespiestu cilvēkus iedalīt trīs grupās tikai divos vai arī ievada k = 2, nodrošinātu dabīgāku piemērotību.

Tāpat, ja personu grupa bija viegli grupējama, pamatojoties uz mītnes valsti, un jūs to saucāt k- ir algoritms ar ievadi k = 20, rezultāti varētu būt pārāk vispārināti, lai tie būtu efektīvi.

Šī iemesla dēļ bieži ir ieteicams eksperimentēt ar dažādām vērtībām k lai noteiktu vērtību, kas vislabāk atbilst jūsu datiem. Jūs, iespējams, vēlēsities izpētīt arī citu datu ieguves algoritmu izmantošanu, meklējot mašīnzinībās iegūtos zināšanas.