Клъстерният анализ се състои от. Групиране на цели за изготвяне на препоръки. Статистика, свързана с клъстерния анализ

Random Forest е един от любимите ми алгоритми за извличане на данни. Първо, той е невероятно гъвкав; може да се използва за решаване както на проблеми с регресия, така и на класификация. Търсете аномалии и изберете предиктори. Второ, това е алгоритъм, който наистина е трудно да се приложи неправилно. Просто защото, за разлика от други алгоритми, има малко персонализирани параметри. Освен това е изненадващо проста по природа. И в същото време е удивително точен.

Каква е идеята зад такъв прекрасен алгоритъм? Идеята е проста: да кажем, че имаме много слаб алгоритъм, да речем. Ако направим много различни модели, използвайки този слаб алгоритъм и осредним резултатите от техните прогнози, крайният резултат ще бъде значително по-добър. Това е, което се нарича ансамбълно обучение в действие. Алгоритъмът Random Forest следователно се нарича „Random Forest“; за получените данни той създава много дървета на решения и след това осреднява резултата от техните прогнози. Важен моментВ създаването на всяко дърво има елемент на случайност. В крайна сметка е ясно, че ако създадем много еднакви дървета, тогава резултатът от тяхното осредняване ще има точността на едно дърво.

Как работи той? Да приемем, че имаме някои входни данни. Всяка колона съответства на някакъв параметър, всеки ред съответства на някакъв елемент от данни.

Можем произволно да изберем определен брой колони и редове от целия набор от данни и да изградим дърво на решенията въз основа на тях.


Четвъртък, 10 май 2012 г

Четвъртък, 12 януари 2012 г


Това е всичко. 17-часовият полет приключи, Русия остава отвъд океана. И през прозореца на уютен апартамент с 2 спални, Сан Франциско, известната Силициева долина, Калифорния, САЩ, ни гледа. Да, точно това е причината да не пиша много напоследък. Преместихме се.

Всичко това започна през април 2011 г., когато имах телефонно интервю със Zynga. Тогава всичко изглеждаше като някаква игра без връзка с реалността и дори не можех да си представя до какво ще доведе. През юни 2011 г. Zynga дойде в Москва и проведе серия от интервюта, бяха разгледани около 60 кандидати, преминали телефонно интервю, и от тях бяха избрани около 15 души (не знам точния брой, някои по-късно промениха решението си, други веднага отказа). Интервюто се оказа учудващо просто. Без проблеми с програмирането, без трудни въпроси относно формата на щриховете, най-вече тестване на способността ви да чатите. А знанията според мен се оценяваха повърхностно.

И тогава започна манипулацията. Първо изчакахме резултатите, след това офертата, след това одобрението на LCA, след това одобрението на петицията за виза, след това документи от САЩ, след това опашката в посолството, след това допълнителна проверка, след това визата. На моменти ми се струваше, че съм готов да се откажа от всичко и да вкарам. На моменти се съмнявах дали ни трябва тази Америка, все пак и Русия не е лоша. Целият процес отне около шест месеца, в крайна сметка в средата на декември получихме визи и започнахме да се подготвяме за заминаване.

Понеделник беше първият ми работен ден на ново място. Офисът разполага с всички условия не само за работа, но и за живеене. Закуски, обеди и вечери от нашите собствени готвачи, много разнообразна храна, натъпкана във всеки ъгъл, фитнес зала, масаж и дори фризьор. Всичко това е напълно безплатно за служителите. Много хора пътуват до работа с велосипеди, а няколко стаи са оборудвани за съхранение на превозни средства. Като цяло, никога не съм виждал нещо подобно в Русия. Всичко обаче си има цена, веднага ни предупредиха, че ще трябва да работим много. Какво е "много" по техните стандарти не ми е много ясно.

Надявам се обаче, че въпреки количеството работа, в обозримо бъдеще ще мога да възобновя блоговете и може би да разкажа нещо за американски животи работи като програмист в Америка. Изчакай и виж. Междувременно пожелавам на всички Честита Нова година и Коледа и до нови срещи!


За пример на използване, нека отпечатаме дивидентната доходност руски компании. Като базова цена приемаме цената на затваряне на акцията в деня на затваряне на регистъра. По някаква причина тази информация не е налична на уебсайта на Тройката, но е много по-интересна от абсолютните стойности на дивидентите.
внимание! Кодът отнема доста време за изпълнение, защото... За всяка промоция трябва да направите заявка до сървърите на finam и да получите нейната стойност.

Резултат<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( опитай(( кавички<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0)(dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


По същия начин можете да изградите статистика за предходни години.

Въведение

Глава 1. Теоретични основи на анализа на големи данни

1.1 За големите данни

.2 Map-Reduce

.3 Извличане на данни за работа с големи данни

1.4 Проблеми, решавани чрез методите за извличане на данни

Заключение към първа глава

Глава 2. Клъстерен анализ за големи данни

.1 Избор на метод за групиране

.2 Йерархични методи

.3 Нейерархични методи

.4 Сравнение на видовете групиране

.5 Статистика, свързана с клъстерен анализ

Заключение към втора глава

Глава 3. Алгоритъм за разделяне на търговски обекти

.1 Клиентски профил

.2 Анализ на кореспонденцията

.3 Основната идея на клъстерния анализ

.4 Характеристики за групиране

.5 Идентифициране на точки с хомогенно местоположение

.5.1 Окончателно разделяне на страти

.6 Групиране на обекти в хомогенни групи

.7 Групиране на асортимента от търговски обекти

Заключение към трета глава

Заключение

Библиография

Въведение

Човечеството в своето развитие използва материални, енергийни, инструментални и информационни ресурси. Информацията за събития от миналото, настоящето и възможното бъдеще е от голям интерес за анализиране на случващото се. Както казват древните: Премонит praemunitus - "предупреденият е предварително въоръжен".

Съвременното развитие на обществото се характеризира с безпрецедентно нарастване на информационните потоци - в индустрията, търговията и финансовите пазари. Способността на обществото да съхранява и бързо обработва информация като цяло определя нивото на развитие на държавността на страната.

Проблемът за събиране, съхраняване и обработка на информация в съвременното общество получава голямо внимание. В момента обаче има явно противоречие. От една страна, човешката цивилизация преживява информационен взрив, обемът на информацията се увеличава значително всяка година. От друга страна, нарастването на текущия обем информация в обществото надхвърля способността на индивида да я асимилира. Наличието на такива проблеми инициира масово развитие на технологии, технически средства и комутационни потоци.

Изключително важната роля на информацията в съвременния свят доведе до идентифицирането на информацията като собствен ресурс, толкова важен и необходим, колкото енергията, финансите и суровините.

Потребностите на обществото от събиране, съхраняване и обработка на информация като стока създадоха нова гама от услуги - пазара на информационни технологии.

За най-пълното и цялостно използване на информационните технологии е необходимо информацията да се събира, обработва, да се създават места за съхранение и натрупване, да се създават системи за предаване и системи за ограничаване на достъпа и накрая информацията трябва да бъде систематизирана. Последният проблем е най-актуален напоследък, тъй като голямо, дори огромно количество информация, влизаща в глобални масиви за съхранение, без систематизация, може да доведе до информационен колапс, когато достъпът или търсенето на необходимата информация може да доведе до търсене на игла в купа сено .

Целта на тази работа : Сравнителен анализ на методите за клъстерен анализ при решаване на проблеми с групирането.

Задача : Анализирайте подходите за използване на клъстерен анализ при проблеми с въвеждане на голям набор от данни.

По време на работата ще бъдат използвани различни методи за клъстерен анализ, за ​​да се идентифицират предимствата и недостатъците на всеки от тях, както и да се избере най-оптималния за изпълнение на възложените задачи. Ще бъде поставен и основният проблем на клъстерния анализ – въпросът за броя на клъстерите и ще бъдат дадени препоръки за неговото решаване. Уместността на тази работа се дължи на спешната необходимост да се определят оптимални методи за обработка на големи обеми данни и решаване на проблемите на систематизацията на данните в най-кратки срокове. Широкото практическо приложение на данните, получени чрез клъстерен анализ, определя уместността на това изследване. Дипломната ми работа е посветена на някои аспекти на подобни проблеми в съвременното развитие на информационните технологии.

Глава 1. Теоретични основи на анализаГолямДанни

.1 За големите данни

Терминът „Големи данни“ описва колекции от данни с потенциален експоненциален растеж, които са твърде големи, твърде неформатирани или твърде неструктурирани, за да бъдат анализирани с традиционни методи.

Технологиите за големи данни са серия от подходи, инструменти и методи за обработка на структурирани и неструктурирани данни с огромни обеми и значително разнообразие. Тези технологии се използват за получаване на възприемани от човека резултати, които са ефективни в условията на непрекъснат растеж и разпространение на информация в множество възли на компютърна мрежа. Те са създадени в края на 2000-те като алтернатива на традиционните системи за управление на бази данни и решенията за бизнес разузнаване. Понастоящем повечето от най-големите доставчици на информационни технологии за организации използват концепцията за „големи данни“ в своите бизнес стратегии, а големите пазарни анализатори на информационни технологии посвещават специално изследване на концепцията.

В момента значителен брой компании следят отблизо развитието на технологиите. Според доклада на McKinsey „Глобален институт, Големи данни: Следващата граница за иновации, конкуренция и продуктивност“ (Глобален институт, големи данни: следващата граница за иновации, конкуренция и продуктивност), данните се превърнаха във важен производствен фактор заедно с трудови и капиталови ресурси . Използването на големи данни се превръща в основа на конкурентно предимство и растеж на компаниите.

В съвременните условия организациите и компаниите създават огромно количество неструктурирани данни: текст, различни документи, изображения, видео, машинни кодове, таблици и други подобни. Цялата тази информация се хоства и съхранява в множество хранилища, често извън организацията.

Организациите може да имат достъп до огромно количество собствени данни, но може да нямат необходимите инструменти, с които действително да установят връзки между всички тези данни и да направят смислени заключения въз основа на тях. Като се има предвид бързото и непрекъснато нарастване на данните, става спешно необходимо да се премине от традиционни методи за анализ към по-напреднали технологии от класа Big Data.

Характеристики.В съвременните източници понятието Big Data се определя като данни от порядъка на терабайти. Признаците на Big Data могат да бъдат определени като „три Vs“: обем - обем; разнообразие - разнородност, набор; velocity - скорост (необходимостта от много бърза обработка).

Фигура 1 Знаци за големи данни

· Сила на звука.Бързото развитие на технологиите и популяризирането на социалните мрежи допринасят за много бързото нарастване на обемите данни. Тези данни, генерирани както от хора, така и от машини, се разпространяват на различни места и формати в огромни обеми.

· Скорост.Тази функция е скоростта на генериране на данни. Получаването на данните, от които се нуждаете, възможно най-бързо е важно конкурентно предимство за разработчиците на решения, също и защото различните приложения имат различни изисквания за латентност.

· Разнообразие.Разнообразието може да се дължи на различни формати за съхранение на данни. Днес в света се генерират значителни количества неструктурирани данни и това е допълнение към структурираните данни, които предприятията получават. Преди ерата на технологията Big Data не е имало мощни и надеждни инструменти в индустрията, които биха могли да работят с обема неструктурирани данни, които виждаме днес.

Използването на огромни количества структурирани данни, генерирани както вътрешно, така и външно, е необходимост за организациите в днешния свят, за да останат конкурентоспособни.

„Категорията“ на Big data традиционно включва не само обичайните електронни таблици, но и неструктурирани данни, които могат да се съхраняват под формата на изображения, аудио файлове, видео файлове, уеб регистрационни файлове, данни от сензори и много други. В света на големите данни този аспект на различните формати на данни ще се нарича разнообразие.

По-долу на фигура 2 има сравнително описание на традиционната база данни и базата данни Big Data.

Има редица отрасли, в които данните се събират и натрупват много интензивно. За приложения от този клас, в които има нужда от съхраняване на данни с години, натрупаните данни се класифицират като изключително големи данни.

Наблюдава се и увеличение на броя на приложенията за големи данни в търговския и правителствения сектор, обемът на данните от тези видове приложения се намира в съоръжения за съхранение и често възлиза на стотици петабайти.

Фигура 2 Сравнителни характеристики на данните

Развитието на определени технологии дава възможност чрез различни методи да се „проследяват“ хората, техните навици, интереси и потребителско поведение. Пример е използването на интернет като цяло и в частност - пазаруване в онлайн магазини като Walmart (според Wikipedia съхранението на данни на Walmart се оценява на повече от 2 петабайта), или пътуване и движение с мобилни телефони, провеждане на разговори, писане на писма, правене на снимки, влизане в акаунти в социални мрежи от различни части на планетата - всичко това се натрупва в бази данни и може да се използва полезно благодарение на бързата обработка на големи данни.

По същия начин съвременните медицински технологии генерират голямо количество данни, свързани с предоставянето на здравни грижи (изображения, видеоклипове, наблюдение в реално време).

Големи източници на данни.Точно както форматите за съхранение на данни се промениха, източниците на данни също се развиха и непрекъснато се разширяват. Има нужда от съхраняване на данни в голямо разнообразие от формати.

С развитието и напредъка на технологиите количеството генерирани данни нараства непрекъснато. Големите източници на данни могат да бъдат разделени на шест различни категории, както е показано по-долу.

Фигура 3 Големи източници на данни

· Корпоративни данни.Предприятията разполагат с големи количества данни в различни формати. Общите формати включват плоски файлове, имейли, документи на Word, електронни таблици, презентации, HTML страници, PDF документи, XML файлове, наследени формати и др. Тези данни, разпространени в цялата организация в различни формати, наречени корпоративни данни .

· Транзакционни данни.Всеки бизнес има свои собствени приложения, които включват извършване на различни видове транзакции като уеб приложения, мобилни приложения, CRM системи и много други.

За да поддържат транзакции, тези приложения обикновено използват една или повече релационни бази данни като основна инфраструктура. Това са предимно структурирани данни и се наричат ​​транзакционни данни.

· Социална медия.Социалните мрежи като Twitter, Facebook и много други генерират голямо количество данни. Обикновено социалните мрежи използват неструктурирани формати на данни, включително текст, изображения, аудио, видео. Тази категория източници на данни се нарича социални средства за масова информация .

· Генериране на активност.Това включва данни от медицински устройства, цензурирани данни, видеозаписи за наблюдение, сателити, кули за клетъчни телефони, индустриално оборудване и други данни, генерирани предимно от машини. Тези типове данни се наричат ​​данни Генериране на активност.

· Публични данни.Тези данни включват данни, които са публично достъпни, като данни, публикувани от правителства, данни от изследвания, публикувани от изследователски институти, данни от метеорологични и метеорологични отдели, данни от преброяване, Wikipedia, извадки от данни с отворен код и други данни, които са свободно достъпни за обществеността. Този тип публични данни се наричат Публични данни .

· Архив.Организациите архивират много данни, които или вече не са необходими, или са рядко необходими. В днешния свят, тъй като хардуерът става по-евтин, никоя организация не иска да изтрие никакви данни, те искат да съхраняват възможно най-много данни. Този тип, който се използва по-рядко, се нарича архивирани данни.

Примери за изпълнение.Като пример за внедряването на тази технология най-често се цитира проектът Hadoop, който е предназначен за внедряване на разпределени изчисления, използвани за обработка на впечатляващи количества данни.

Този проект се разработва в рамките на Apache Software Foundation. Cloudera поддържа този проект комерсиално.

Разработчици от различни страни по света участват като участници в проекта. доставчик на информационни клъстери

Технологично Apache Hadoop може да се нарече безплатна Java рамка, която поддържа изпълнението на разпределени приложения, работещи на големи клъстери, изградени на стандартен хардуер.

Тъй като обработката на данни се извършва на клъстер от сървъри, ако един от тях се повреди, работата ще бъде преразпределена между други работещи.

Също така е необходимо да се говори за внедряването на технологията MapReduce в Hadoop, чиято основна задача е автоматичното паралелизиране на данни и тяхната обработка в клъстери.

Ядрото на Hadoop е устойчивата на грешки разпределена файлова система HDFS (Hadoop Distributed File System), която управлява системи за съхранение.

Същността на системата е да разделя входящите данни на блокове, за които има специално обособена позиция в сървърния пул за всеки от тях. Системата позволява на приложенията да се мащабират. Нивото ще бъде хиляди възли и петабайти данни.

1.2 Map-Reduce

В този параграф ще говорим за алгоритъма Map-Reduce, който е модел за разпределени изчисления.

Принципите на неговата работа се основават на разпределението на входните данни към работните възли на разпределена файлова система за предварителна обработка (стъпка на карта) и след това свиване (сливане) на предварително обработените данни (стъпка на намаляване).

Алгоритъмът изчислява текущите суми на всеки възел на разпределена файлова система, след това изчислява сумата от текущите суми и получава крайната сума.

Магически квадрант на доставчиците на решения в областта на системите за управление на складове за данни (Gartner, февруари 2017 г.)

Фигура 4 Лидери

Компании:

· Лидери: IBM, SAS, RapidMiner, KNIME

· Претенденти: MathWorks, Quest (бивш Dell), Alteryx, Angoss

· Визуализатори: Microsoft, H2O.ai, Dataiku, Domino Data Lab, Alpine Data

Нишови играчи: FICO, SAP, Teradata

1.3 Извличане на данниЗаработасГоляма информация

Извличане на данни(DM) - „Това е технология, която е предназначена да търси големи обеми от данни за неочевидни, обективни и практични модели.“

Особеност на Data Mining е комбинацията от широк набор от математически инструменти (от класически статистически анализ до нови кибернетични методи) и най-новите постижения в областта на информационните технологии.

Тази технология съчетава строго формализирани методи и методи на неформален анализ, т.е. количествен и качествен анализ на данни.

.4 Проблеми, разрешени чрез методите за извличане на данни

· Корелация - установяване на статистическа зависимост на непрекъснатите изходи от входните променливи.

· Групирането е групиране на обекти (наблюдения, събития) въз основа на данни (свойства), които описват същността на тези обекти. Обектите в рамките на един клъстер трябва да са „подобни“ един на друг и в същото време да имат разлики от обектите, които попадат в други клъстери.

Точността на клъстерирането ще бъде по-висока, ако обектите в клъстера са възможно най-сходни, а клъстерите са възможно най-различни.

· Класификацията е приписването на обекти (наблюдения, събития) към един от предварително известните класове.

· Асоциация - идентифициране на модели между свързани събития. Пример за такъв модел е правило, което показва, че събитие X следва от събитие Y. Такива правила се наричат ​​асоциативни.

Заключение към първа глава

Големите данни не са просто още един хайп на ИТ пазара, това е систематичен, висококачествен преход към създаването на вериги за стойност, базирани на знанието.

По ефект може да се сравни с навлизането на достъпните компютърни технологии в края на миналия век.

Докато късогледите консерватори ще използват дълбоко остарели подходи, предприятията, които вече използват технологиите за големи данни, в бъдеще ще се окажат на водещи позиции и ще получат конкурентни предимства на пазара. Няма съмнение, че всички големи организации ще внедрят тази технология през следващите години, тъй като тя е както настоящето, така и бъдещето.

Глава 2. Клъстерен анализ заГолямДанни

Клъстерният анализ е клас от методи, които се използват за класифициране на обекти или събития в доста хомогенни групи, които ще се наричат клъстери.

Основното е, че обектите в клъстерите трябва да са подобни един на друг, но в същото време трябва да се различават от обектите, разположени в други клъстери.

Фигура 5 илюстрира идеална ситуация на клъстериране, като всеки клъстер е ясно разделен въз основа на разликите в две променливи: ориентация към качеството (X) и чувствителност към цената (Y).

Фигура 5 Идеална ситуация на групиране

Трябва да се отбележи, че абсолютно всеки потребител попада в един от клъстерите и няма припокриващи се области.

Илюстрацията по-долу обаче показва ситуацията на клъстериране, която най-често се среща на практика.

В съответствие с данните на фигура 6, границите на клъстерите са очертани изключително неясно и не е напълно ясно кои потребители към кой клъстер са причислени, тъй като значителна част от тях не могат да бъдат групирани в един или друг клъстер.

Фигура 6 Реална ситуация на групиране

При клъстерния анализ групите или клъстерите се идентифицират с помощта на събрани текущи данни, а не предварително. По този начин няма абсолютно никаква нужда да се изготвя предварителна информация за клъстерното членство на който и да е от обектите .

Сегментиране на пазара. Например, потребителите трябва да бъдат разделени на групи въз основа на ползите, които очакват от закупуването на даден продукт. Клъстерът може да съдържа потребители, търсещи подобни ползи. Този метод обикновено се нарича метод на сегментиране на ползите.

Разбиране на поведението на купувача. Използване на клъстерен анализ, когато е необходимо да се идентифицират хомогенни категории купувачи.

Определяне на възможностите на новия продукт. Определянето на конкурентни групи и набори в рамките на даден пазар също се извършва чрез групиране на марки и продукти.

Избор на тестови пазари. Изборът на подобни градове с цел тестване на множество маркетингови стратегии се извършва чрез групиране на градове в хомогенни клъстери.

Намаляване на измерението на даннитеХ. Клъстерният анализ също се използва като основен инструмент за намаляване на размерността на данните чрез създаване на клъстери или подгрупи от данни, които са по-полезни за анализ, отколкото индивидуалните наблюдения. Допълнителен многовариантен анализ се извършва на клъстери, а не на индивидуални наблюдения.

2.1 Методи за групиране

Има два вида методи за клъстериране: йерархиченИ нейерархичен.

Фигура 7 Методи за клъстерен анализ

.2 Йерархични методи

Йерархични методисе делят на два вида - агломеративни и дивизионни.

Агломеративенклъстерирането започва с всеки обект в отделен клъстер. Обектите се групират във все по-големи клъстери. Този процес ще продължи, докато всички обекти станат членове на един единствен клъстер.

Също така трябва да се подчертае дивизионенгрупиране, което започва с групиране на всички обекти в един клъстер. Клъстерите ще бъдат разделени, докато всеки обект е в отделен клъстер. Най-често се вземат за изследване агломеративни методи, като комуникационни методи, както и дисперсия и центроид.

Комуникационни методивключват метод на единична връзка, метод на пълна връзка и метод на средна връзка. Методите за свързване са агломеративни йерархични методи за клъстериране, които комбинират обекти в клъстер въз основа на изчисленото разстояние между тях.

Фигура 8 Метод на единична връзка

В основата един метод на свързванее минималното разстояние или правилото за най-близкия съсед (формула 1).

При формиране на клъстер първи се комбинират два обекта, разстоянието между които е минимално. След това се определя следващото най-късо разстояние и трети обект се въвежда в клъстера с първите два обекта.

На всеки етап разстоянието между два клъстера е разстоянието между техните най-близки точки. На всеки етап два клъстера се комбинират според най-късото единично разстояние между тях.

Този процес продължава, докато всички обекти се комбинират в клъстер. Ако клъстерите са лошо дефинирани, тогава методът с единична връзка не работи добре.

Фигура 9 Метод на пълна връзка

В основата метод на пълно свързванележи максималното разстояние между обектите или правилото за най-отдалечения съсед. При метода на пълното свързване разстоянието между два клъстера се изчислява като разстоянието между техните две най-отдалечени точки.

Фигура 10 Метод на средна връзка

IN среден метод на свързванеразстоянието между два клъстера се определя като средната стойност на всички разстояния, измерени между обекти в два клъстера, като всяка двойка включва обекти от различни клъстери. Методът на средната връзка използва информация за всички разстояния между двойки, а не само за минималното или максималното разстояние. Поради тази причина методът на средно свързване обикновено се предпочита пред методите на единично или пълно свързване.

Дисперсионни методиобразуват клъстери по такъв начин, че да сведат до минимум дисперсията вътре в клъстера.

Фигура 11 Метод на Ward

Добре известен дисперсионен метод, използван за тази цел, е Метод на Уорд, в които клъстерите се формират по такъв начин, че да минимизират квадратите на евклидовите разстояния до средните клъстери.

За всеки клъстер се изчисляват средните стойности на всички променливи. След това за всеки обект се изчисляват квадратите на евклидовите разстояния до средните стойности на клъстера.

Тези квадратни разстояния се сумират за всички обекти. На всеки етап двата клъстера с най-малко увеличение на общата интракластерна дисперсия се комбинират.

Фигура 12 Метод на центроида

IN центроидни методиразстоянието между два клъстера е разстоянието между техните центроиди (средната стойност на всички променливи).

Методът на центроида е метод на дисперсия за йерархично групиране. Всеки път, когато обектите се групират и се изчислява нов центроид.

Методът на Уорд и средната връзка показват най-добри резултати сред всички йерархични методи.

2.3 Нейерархични методи

Друг вид клъстерни процедури са нейерархични методигрупиране, често наричано k-средно. метод на k-средните(k-означава групиране) - метод, който определя центъра на клъстер и след това групира всички обекти в рамките на прагова стойност, определена от центъра. Тези методи включват метод на последователен праг, метод на паралелен праг и оптимизиращо разпределение.

където k е броят на клъстерите, _(i)) са получените клъстери, i=1,2,…,k

Масови центрове на вектори.

Фигура 13 Пример за алгоритъм за k-средни стойности (k=2)

IN метод на последователен прагОбектите, които са в рамките на праг с даден център, се групират заедно.

Следващата стъпка е да се определи нов център на клъстера и този процес ще се повтори за негрупирани точки. След поставяне на обект в клъстер с нов център, той вече няма да се счита за обект за по-нататъшно клъстериране.

Работи по подобен начин паралелен прагов метод, но има една важна разлика - едновременно се избират няколко клъстерни центъра и обектите в рамките на праговото ниво се групират с най-близкия център.

Оптимизиращ метод на разпространениеще се различава от двата предишни прагови метода по това, че обектите могат впоследствие да бъдат присвоени на други клъстери (преразпределени), за да се оптимизира общият критерий, който е средното вътрешно клъстерно разстояние, установено за даден брой клъстери.

Алгоритъм BIRCHБлагодарение на обобщените представяния на клъстери, скоростта на клъстериране се увеличава, докато алгоритъмът е силно мащабируем. Този алгоритъм реализира двуетапен процес на групиране.

Първият етап е формирането на предварителен набор от клъстери. Следващият етап е към идентифицираните клъстери да се приложат други алгоритми за клъстериране, които биха били подходящи за работа с RAM.

Нека си представим всеки елемент от данни като мънисто, което лежи на повърхността на масата, тогава е абсолютно възможно да „заменим“ тези клъстери с тенис топки и след това да преминем към по-подробно изучаване на клъстери от тенис топки.

Броят на мънистата може да бъде доста голям, но диаметърът на тенис топките може да бъде избран така, че на втория етап, използвайки традиционните алгоритми за клъстериране, да стане възможно да се определи действителната сложна форма на клъстерите.

Сред новите мащабируеми алгоритми можем да отбележим и алгоритъма ЛЕКУВАНЕ- йерархичен алгоритъм за групиране, където концепцията за клъстер е формулирана с помощта на концепцията за плътност. Сега много изследователи активно работят върху мащабируеми методи, чиято основна задача е да преодолеят недостатъците на съществуващите днес алгоритми.

2.4 Сравнение на видовете групиране

Таблицата изброява предимствата и недостатъците на такива методи като: CURE алгоритъм, BIRCH, MST, k-средни (k-средни), PAM, CLOPE, самоорганизиращи се карти на Kohonen, HCM (Hard C - Means), Fuzzy C-means .

2.5 Статистика, свързана с клъстерния анализ

Следните статистики и концепции са свързани с клъстерния анализ:

1. Център на клъстера. Средната стойност на променливите за всички случаи или обекти в определен клъстер.

2. Клъстерни центрове. Начални отправни точки в нейерархичното групиране. Около тези центрове се изграждат клъстери или клъстерни зърна.

3. Принадлежност към клъстер. Показва клъстера, към който принадлежи всеки случай или обект.

4. Дървовидна диаграма- графичен инструмент за показване на резултатите от групирането. Вертикалните линии представляват клъстери, които се сливат. Позицията на вертикалната линия върху скалата на разстоянието показва разстоянията, на които са комбинирани клъстерите. Тази диаграма се чете отляво надясно.

5. Вариационен индикатор.Проверка на качеството на групиране Съотношението на стандартното отклонение към средната стойност.

7. Диаграма на висулка. Това е графичен дисплей на резултатите от групирането.

8. Матрица на подобие/матрица на разстояния между обединени обектие долна триъгълна матрица, съдържаща стойности на разстоянието между двойки обекти или случаи

Заключение към втора глава

Клъстерният анализ наистина може да се нарече най-удобният и оптимален инструмент за идентифициране на пазарни сегменти. Използването на тези методи стана особено важно в ерата на високите технологии, в която е толкова важно да се ускорят трудоемките и отнемащи време процеси с помощта на технологиите. Променливите, използвани като основа за клъстериране, ще бъдат правилно избрани въз основа на опита от предишни проучвания, теоретични предпоставки, различни тествани хипотези, както и въз основа на желанията на изследователя. Освен това се препоръчва да се вземе подходяща мярка за сходство. Отличителна черта на йерархичното групиране е развитието на йерархична структура. Съществуват и се използват два вида йерархични методи за групиране – агломеративен и дивизионен.

Агломеративните методи включват: методи на единична, пълна и средна връзка. Най-разпространеният дисперсионен метод е методът на Бард. Методите за нейерархично клъстериране често се наричат ​​методи на k-средни стойности. Изборът на метод за групиране и изборът на мярка за разстояние са взаимосвързани. При йерархично групиране важен критерий за вземане на решение относно броя на клъстерите са разстоянията, на които клъстерите се сливат. Относителните размери на клъстерите трябва да бъдат такива, че да има смисъл да се запази даден клъстер, вместо да се слее с други. Клъстерите се интерпретират от гледна точка на клъстерни центроиди. Клъстерите често се интерпретират чрез профилирането им чрез променливи, които не са били основата за клъстериране. Надеждността и валидността на решенията за клъстериране се оценяват по различни начини.

Глава 3. Алгоритъм за разделяне на търговски обекти

Като обект на изследване е взето предприятие за търговия на дребно с 36 651 обекта за продажба на сладкарски изделия. Списъкът на стоките, продавани от компанията, включва над 350 единици продукти.

Целта на това изследване ще бъде сравнителен анализ на методите за клъстерен анализ при решаване на проблеми:

Проучване на профила на клиента и анализ на съответствието на посочените характеристики;

2. Разделяне на клъстери - идентифициране на хомогенни групи;

Разделяне на асортимента на търговско предприятие на хомогенни групи.

.1 Клиентски профил

Според проучване на Galileo, проведено през втората половина на 2016 г., са анкетирани приблизително 42 милиона души, които консумират сладкарски изделия.

От това проучване следва, че основните потребители на сладкарски изделия са жените.

Това може да се отдаде на факта, че жените традиционно получават шоколадови изделия като подарък, а по-голямата част от любителите на сладкарството са жени. Това може ясно да се види на фигура 10.

· под 16 години – основните потребители на шоколад под формата на фигури;

· от 16 до 24 години – основните потребители на шоколадови блокчета;

· шоколадови блокчета в повечето случаи се купуват от жени на възраст от 25 до 34 години;

· хората от 25 до 45 години са основните купувачи на бонбони в кутии;

· Хората на 45 и повече години предпочитат насипни сладкиши.

Фигура 14 Консумация на сладкарски изделия по пол

Фигура 12 показва разпределението на общото потребление в 3 групи в зависимост от дохода: А-нисък, Б-среден, В-висок. Лъвският дял от потребителите се пада на групата със средни доходи - 54%, следвани от групата с ниски доходи - 29%, най-малък е приносът на групата с високи доходи - 17%.

Фигура 15 Потребление на захарни изделия в зависимост от дохода

Тази графика илюстрира предпочитанията на аудиторията при избора на място за покупка; нека разгледаме и разпределението в зависимост от доходите. Очевидно най-голям брой покупки се правят в хипермаркети и супермаркети, което важи за всяка доходна група.

Делът на покупките в супермаркетите е почти половината (46%) за група В, въз основа на което можем да заключим, че е препоръчително да се разшири гамата от стоки, популярни сред хората с високи доходи.

Хората със средни доходи правят 41% от покупките в супермаркетите, а най-малък е дялът на хората с ниски доходи - 37%. Следва делът на покупките в малките магазини на самообслужване, като покупките в такива магазини се извършват и от трите групи в равно съотношение. Най-малък е делът на пазарите и сергиите, където основен принос имат представителите на група А, която включва голям брой пенсионери, които често пазаруват на пазара „по навик“.

Фигура 16 Места за закупуване на сладкарски изделия в зависимост от дохода

Следващата графика ясно илюстрира степента на важност на конкретен атрибут на продукта за всяка от трите доходни групи. За групи А и Б най-важният фактор е цената, а външният вид на опаковката и страната производител на продукта са от малко значение. Поведението на представителите на групата с високи доходи ще бъде малко по-различно, там освен цената са важни марката и външният вид и страната на производство на продукта.

Фигура 17 Приоритети при избора на сладкарски изделия от различни доходни групи

.2 Анализ на кореспонденцията

Анализът на съответствието се използва за визуализиране на таблици. Този метод ви позволява да идентифицирате връзката между характеристиките в колоните и редовете на таблицата.

Нека по-нататък разгледаме анализа на съответствието на потреблението на сладкарски изделия по пол и възраст, илюстрирано на фигура 7, както и на фигура 8, която показва потреблението на различни категории продукти в зависимост от доходите на потребителите.

Първо, нека разгледаме предпочитанията на три групи мъже: на възраст 16-19, 20-24 и 25-34 години, тъй като техните потребителски предпочитания могат да бъдат характеризирани като почти идентични.

Фигура 18 Анализ на съответствието на популярните бонбони по възраст и пол

Мъжете в тези възрастови групи предпочитат шоколадови блокчета Snickers, Mars, Nuts, Twix, Picnic, Kinder bueno и бонбони M&m’s. Продуктите от този тип попадат в категорията „Шоколадови блокчета и друг вид шоколад в малки опаковки” и ще бъдат най-популярни сред хората с ниски доходи.

Следват останалите четири възрастови групи при мъжете: 35-44, 45-54, 55-64, 65-74. Те също ще имат приблизително същото потребителско поведение и са изключително пасивни потребители. За тези групи ще бъде справедливо да се каже, че с увеличаване на нивото на доходите нивото на потребление ще се променя обратно пропорционално, тоест сред мъжете на възраст 35-74 години с висок доход ще има най-ниска потребителска активност.

Очевидно нишата, която включва платежоспособни мъже 35-74, е много обещаваща и в същото време незаета, но съществуващият набор от продукти не е в състояние да задоволи нуждите на тази категория потребители. Въз основа на горното можем да заключим, че има смисъл да повлияем на тази целева аудитория с някакъв напълно нов продукт, който може да привлече потребителите.

Следващата стъпка ще бъде да се опишат групи от жени на възраст 16-19, 20-24, 25-34 години, които имат подобно потребителско поведение. Споменатите групи, като правило, предпочитат шоколадови блокчета, някои от тях ще бъдат подобни на предпочитаните от мъже на същата възраст - Picnic, Twix, Nuts и др., а също и Tempo, Bounty, Kit Kat, Milky Way. много популярен сред жените, Kinder country, обикновено чудо.

За тези групи правилото за ниски доходи също ще бъде вярно; с увеличаването на доходите популярността на шоколадовите блокчета ще намалее. Следва групата на жените 35-44, за които най-популярен избор е Alpen Gold, след това Geisha и mini whimsy cake, това твърдение важи еднакво за тези с ниски и средни доходи. С нарастване на възрастта се предпочитат (групи 45-54, 55-64, 65-74): Аленка, Коровка, Сладко, бонбони от групата „Крупская” и други домашни. Това важи най-вече за хората със средни доходи. Оценявайки потреблението на сладкарски изделия като цяло, трябва да се отбележи, че 2/3 от цялото потребление се пада на женския дял от населението.

.3 Основната идея на клъстерния анализ

Преди да се приложи алгоритъмът за групиране, всички търговски обекти се разделят на страти. Алгоритъмът се прилага отделно към всяка от получените страти. Клъстерите, получени за отделните групи, след това се комбинират в един последен набор от клъстери.

Нека опишем подробностите на алгоритъма за групиране. Нека означим броя на търговските обекти, към които се прилага алгоритъмът с , множеството търговски обекти с , Евклидовата метрика с , а броят на характеристиките с . Броят на характеристиките и, като следствие, техният брой зависи от стратата.

На първо място, стойностите на всички характеристики са стандартизирани. Стандартизацията е преобразуване на характеристика чрез изваждане на нейната средна стойност и разделяне на нейното стандартно отклонение. Средната стойност и стандартното отклонение се изчисляват веднъж върху данните, върху които се клъстерират, и са част от модела за клъстериране.

Използваме алгоритъма KMeans като алгоритъм за групиране. Този алгоритъм изисква указване на броя на клъстерите и броя на инициализациите на итеративния процес на клъстериране (или начални центроиди). Броят на инициализациите зависи от наличното време за клъстериране. За да определим броя на клъстерите, използваме алгоритъма KMeans с брой на клъстерите от 2 до 75. Нека означим получените модели на клъстериране с , а центроидите с . За всеки дефинираме мярка за вътрешно клъстерно разсейване

Можете да обмислите модел на клъстериране за случая. В този случай има само един центроид, дефиниран като средна по елементи от всички. Получената мярка за вътрешно клъстерна дисперсия се нарича мярка за обща дисперсия на търговските обекти:

Поведение

може да се тълкува като съотношението на необяснимите разлики между търговските обекти в клъстерите. Това съотношение намалява с растежа. Ние определяме оптималния брой клъстери като


С други думи, ние избираме минималния брой клъстери, така че делът на необяснимите разлики да е не повече от 20%.

Забележка . Вместо стойност 0,2 можете да вземете произволна стойност от 0 до 1. Изборът зависи от ограниченията за броя на клъстерите, както и от вида на графиката на връзката спрямо . Въпреки това, ако максимално допустимият дял на необясними разлики е зададен преди началото на клъстерирането, тогава за търсенето не е необходимо да се изграждат клъстерни модели за всички от 2 до 75. Може да се използва методът на двоично търсене, което значително увеличава скоростта на клъстерирането .

В резултат на клъстерирането получаваме следните компоненти на пълния модел на клъстериране:

· - средни стойности на характеристиките за страта и тип;

· - стандартни отклонения на характеристиките за страта и тип;

· - оптимален брой клъстери за страта и тип;

· - клъстерен модел, получен с оптимален брой клъстери за страта и тип.

Алгоритъмът за прилагане на модела за пълно клъстериране е както следва. Нека има магазин за търговия на дребно от тип, принадлежащ към страта, определена от вектор на характеристиките. Използвайки вектор, ние определяме вектор с елементи

Прилагаме клъстерния модел към резултантния вектор. В резултат на това получаваме номера на клъстера. По този начин „номерът на клъстера“ в рамките на пълния модел на клъстериране се състои от три части:

· прослойка;

· номер на клъстера според клъстерния модел за страта и тип (по-нататък този номер ще се нарича просто номер на клъстер).

3.4 Характеристики за групиране

За групирането е необходимо да се състави списък с характеристики, които описват търговските обекти. За характеризиране на търговските обекти са използвани следните показатели:

· Разстояния до места за привличане на населението (наричани по-нататък МНП);

· Конкурентна среда. Разстояние до съоръжения на транспортната инфраструктура и други търговски обекти на KA-мрежи и извън KA-мрежи (определят се разстоянието до най-близкия обект и броят на обектите в радиус от 1000 метра);

· Платежоспособност на населението в близост до търговския обект.

Формално характеристиките включват също пласт и тип изход. Въпреки това не се извършва групиране въз основа на тези характеристики.

Списък на знаци за търговски обекти:

) доход на населението ( доходи);

2) средната цена на 1 квадратен метър жилище ( кв.м_ цена;);

) средна цена за наем на едностаен апартамент ( под наем_ цена) ;

) броя на MPN от всякакъв тип в радиус от 1000 метра ( бр_ в_ радиус_ mpn_ всичко);

) брой търговски обекти на не-KA вериги в радиус от 1000 метра ( бр_ в_ радиус_ tt);

) брой търговски обекти на веригата КА в радиус от 1000 метра ( бр_в_радиус_ ка);

) брой железопътни гари в радиус от 1000 метра ( бр_ в_ радиус_ железопътна линия_ станция);

) брой метростанции в радиус от 1000 метра (пол бр_ в_ радиус_ метро_ станция);

) брой спирки на наземен обществен транспорт в радиус от 1000 метра ( бр_ в_ радиус_ град);

) разстояние до най-близкия MPN от всякакъв тип ( разст_ да се_ най-близо_ mpn);

) разстояние до най-близката жп гара ( pts_railway_station_d01_distance);

) разстояние до най-близката метростанция ( pts_subway_station_d01_distance);

) разстояние до най-близката спирка на наземен градски транспорт ( pts_city_d01_distance);

) разстояние до най-близкия изход на мрежата извън KA ( tt_to_tt_d001_разстояние);

) разстояние до най-близкия изход на KA-мрежата ( ka_d01_разстояние);

3.5 Идентифициране на точки с хомогенно местоположение

Като част от подготовката на данните, всички данни бяха разделени на хомогенни слоеве въз основа на размера на населението. Това е необходимо за по-нататъшно висококачествено групиране. При разделянето на страти се използва методът на сравнение на средните. Качеството на разделянето беше проверено чрез степента на разлика между слоевете въз основа на непараметричен анализ на дисперсията. Резултатите от приложението са показани по-долу:

1. Доход на населението . Хипотезата за равенство на доходите за 4-те страти беше отхвърлена (виж таблица 1).

Таблица 1 Хипотеза за доходите на населението


Както се вижда от фигура 20, има осезаема разлика в средния доход. В първия слой той е значително по-висок, отколкото в останалите. Най-ниските доходи са отбелязани в четвъртата прослойка.

Фигура 20 Сравнения между слоеве (доходи на населението)

2. Средна цена на един квадратен метър жилище . Хипотезата за равенството на цената на 1 кв. метра жилища за 4 слоя беше отхвърлен (виж таблица 2).

Таблица 2. Хипотеза за средната цена на 1 квадратен метър жилище


Както се вижда от фигура 21, има забележима разлика в средната цена на 1 кв. метра жилища. В първия слой той е значително по-висок, отколкото в останалите. Най-ниската стойност е във втория слой. Страта 3 и 4 имат приблизително еднаква цена.

Фигура 21 Сравнения между слоевете (цена на 1 квадратен метър жилище)

3. Средна цена на наем на едностаен апартамент . Хипотезата за равенството на разходите за наем за 4-те страти беше отхвърлена (виж таблица 3).

Таблица 3 Хипотеза за средната цена на наема


Както може да се види от фигура 22, има забележима разлика в средната цена на жилище под наем. В първия слой той е значително по-висок, отколкото в останалите. Най-ниската стойност е във втория слой.

Фигура 22 Сравнения между слоевете (средна наемна цена)

4. Брой MPN от всякакъв тип в радиус от 1000 метра . Хипотезата беше отхвърлена за 4 страти (виж Таблица 4).

Таблица 4 Хипотеза за броя на MPN


Както може да се види от Фигура 23, има забележима разлика в средния брой MPN. В първия слой той е значително по-висок, отколкото в останалите. Най-малък е броят на MPN в четвъртата страта.

Фигура 23 Сравнения между слоеве (брой MPN)

5. Броят на търговските обекти не е К.А. -мрежи в радиус от 1000 метра . Хипотезата беше отхвърлена за 4 страти (виж Таблица 5).

Таблица 5 Хипотеза за броя на търговските обекти на не-KA вериги


Както се вижда от фигура 24, има забележима разлика в средните стойности. Във втората страта средната стойност е значително по-висока от тази в останалите. Най-ниската стойност е в четвъртия слой.

Фигура 24 Сравнения между слоевете (Брой TT мрежи, различни от KA)

6. Брой изходи К.А. -мрежи в радиус от 1000 метра . Хипотезата беше отхвърлена за 4 страти (виж Таблица 6).

Таблица 6 Хипотеза за броя на търговските обекти на веригите CA


Както се вижда от фигура 25, има забележима разлика в средните стойности.

Във втората страта средната стойност е по-висока от останалите, а най-ниска е в четвъртата страта.

Фигура 25 Сравнения между слоеве (Брой TT KA мрежи)

. Брой жп гари в радиус от 1000 метра . Хипотезата беше отхвърлена за 4 страти (виж Таблица 7).

Таблица 7 Хипотеза за броя на жп гарите


Както се вижда от фигура 26, има забележима разлика в средните стойности.

В първия слой средната стойност е по-висока, отколкото в останалите.

Най-малък е броят на железопътните гари в третата и четвъртата страта.

8. Брой спирки на наземен градски транспорт в радиус от 1000 метра. Хипотезата беше отхвърлена за 4 страти (виж Таблица 8).

Таблица 8 Хипотеза за броя на спирките на наземния транспорт


Както се вижда от фигура 27, има забележима разлика в средните стойности. В първата страта средната стойност е по-висока, отколкото в останалите, най-ниска е стойността в 4-та страта.

Фигура 27 Сравнения между слоевете (брой спирки на наземния транспорт)

9. Разстояние до най-близкия MPN от всякакъв тип. Хипотезата беше отхвърлена за 4 страти (виж Таблица 9).

Таблица 9 Хипотеза за разстоянието до най-близкия MPN


Както се вижда от фигура 28, има забележима разлика в средните стойности. В четвъртата страта средната стойност е по-висока от тази в останалите. Най-ниската стойност е отбелязана в първия и втория слой.

Фигура 28 Сравнения между слоевете (брой спирки на наземния транспорт)

. Разстояние до най-близката ж.п . Хипотезата беше отхвърлена за 4 страти (виж Таблица 10).

Таблица 10 Хипотеза за разстоянието до най-близката гара


Както се вижда от фигура 29, има забележима разлика в средните стойности. В четвъртата страта средната стойност е по-висока от тази в останалите. Най-ниската стойност е отбелязана в първия слой.

Фигура 29 Сравнения между слоевете (разстояние до най-близката жп гара)

11. Разстояние до най-близката метростанция . Хипотезата беше отхвърлена за 4 страти (виж Таблица 11).

Таблица 11 Хипотеза за разстоянието до метростанция


Както се вижда от фигура 30, има забележима разлика в средните стойности. Във втората, третата и четвъртата страта средната стойност е по-висока, а най-ниска стойност се отбелязва в първата страта.

Фигура 30 Сравнения между слоевете (разстояние до най-близката метростанция)

12. Разстояние до най-близката спирка на наземен градски транспорт. Хипотезата беше отхвърлена за 4 страти (виж Таблица 12).

Таблица 12 Хипотеза за разстоянието до най-близката спирка на наземен транспорт


Както се вижда от фигура 31, има забележима разлика в средните стойности. В четвъртата страта средната стойност е по-висока, а най-ниската стойност е отбелязана в страта 1.

Фигура 31 Сравнения между слоевете (разстояние до най-близката спирка на наземния транспорт)

13. Разстоянието до най-близкия търговски обект не е К.А. -мрежи Хипотезата беше отхвърлена за 4 страти (виж Таблица 12).

Таблица 13 Хипотеза за разстоянието до най-близкия търговски обект, различен от KA


Както се вижда от фигура 32, има забележима разлика в средните стойности. В третата страта средната стойност е по-висока, а най-ниска стойност се отбелязва в първата, втората и третата страта.

Фигура 32 Сравнения между слоеве (разстояние до най-близкия мрежов изход извън CA)

14. Разстояние до най-близкия търговски обект К.А. -мрежи

Таблица 14 Хипотеза за разстоянието до най-близкия търговски обект от мрежата на КА


Както се вижда от фигура 33, има забележима разлика в средните стойности. В третата страта средната стойност е по-висока, а най-ниска стойност се отбелязва в първата, втората и третата страта.

Фигура 33 Сравнения между слоевете (разстояние до най-близкия изход на CA мрежата)

Така в крайна сметка се получават резултатите от сходството на стратите (виж Таблица 15).

Таблица 15 Сравнение между страти

.5.1 Окончателно разделяне на страти

В резултат на това беше избрано разделение на 4 страта, като сателитните градове са приписани на главните градове. Страта (поле поп_ пластове) определяме от населението в населеното място, в което се намира търговският обект.

· 1-ва страта - големи градове с население над 1 милион души;

· страт 2 - градове с население над 250 хиляди души и до 1 милион души;

· 3-та страта - градове с население над 100 хил. души и под 250 хил. души;

· 4 страта - градове с население под 100 хиляди души.

.6 Групиране на обекти в хомогенни групи

За да идентифицираме CT с подобно местоположение, ще групираме обекти (за всеки от слоевете). Преди да се приложи групиране, е необходимо да се идентифицират по-хомогенни търговски обекти по местоположение. Индексът на вариация беше използван за определяне на качеството на групирането. В резултат на това 36 651 търговски обекта бяха разделени на 15 клъстера (36 598 търговски обекта) + 16-ият клъстер се състои от 53 аномални обекта. Под необичайни имаме предвид точки с много високи продажби.

За характеризиране на клъстерите са използвани следните 7 показателя от описателната статистика:

· Минимум, най-ниска продажна стойност;

· Процентил 5%;

· Процентил 25%;

· Медиана е точка от скалата на измерените стойности на продажбите, над и под която се намира половината от всички измерени стойности на продажбите;

· Процентил 75%;

· Процентил 95%;

· Максимална, най-висока стойност на продажбите.

Таблица 16 Окончателно разделяне на клъстери

В таблица 1 можете ясно да видите окончателното разпределение на клъстерите в слоевете. Най-много търговски обекти са към четвъртата страта, а най-малко към третата.

· Страта 1. За първата страта (4402 търговски обекта), чрез прилагане на метода на k-средните (глава 2, параграф 2.3), е получено оптимално разделяне на 4 клъстера на базата на 15 характеристики. Броят на клъстерите е избран въз основа на оптимизация на критерия Akaike.

· 1-ви клъстер - включва търговски обекти, чиито райони са близо до центъра на големите градове или обекти, разположени в търговски центрове.

Профил на клъстера : Този клъстер се характеризира със значителен брой места за привличане на населението (MPP), висока концентрация на търговски площи и развита инфраструктура.

Фигура 34 Съотношение на клъстерите в първия слой

Той съставлява 61,5% от общите продажби на стратите. В клъстера има 2708 търговски обекта. Средните месечни продажби в търговските обекти в този клъстер се оценяват в диапазона от 3 до 7 хиляди рубли. Средният доход на населението е 34-36 хиляди рубли, което е над средното и изпреварва повечето други клъстери по този показател.

Средната цена на 1 квадратен метър жилище ще бъде 63 - 64 хиляди рубли, което може да се нарече средно. Средната цена за наемане на едностаен апартамент се оценява на 14 - 15 хиляди рубли, което също може да се опише като средно в сравнение с други клъстери.

Броят на местата за привличане на населението от всякакъв вид в радиус от 1000 метра е от 32 до 47, което е над средното ниво, а броят на търговските обекти на не-KA вериги в радиус от 1000 метра е около 40 до 53, което също е над средното ниво. Търговските обекти на веригите КА в радиус от 1000 метра са представени средно с 10 бр. Наличието на железопътни гари в радиус от 1000 метра се оценява като не повече от две.

Този клъстер се характеризира с пълното отсъствие на метростанции в радиус от 1000 метра. Броят на спирките на наземния градски транспорт в радиус от 1000 метра е 13-20 бр.

: Разстоянието до най-близкото място на привличане на население от всякакъв тип е минимално - наблизо. Разстоянието до най-близката гара може да се опише като голямо - далече. Разстояние до най-близката метростанция - в района няма. Разстоянието от най-близката спирка на наземния градски транспорт ще бъде малко, характеристиките ще бъдат в близост. Разстоянието до най-близкия изход извън KA-мрежата е минимално - наблизо, а разстоянието от най-близкия изход от KA-мрежата е малко по-голямо, но също малко, характеристиката е близка.

· 2-ри клъстер - Това са жилищни (спални) райони на големите градове.

Профил на клъстера : Малък брой MPN, ниска концентрация на човешки поток, търговски площи.

: Заема 12,2% от броя на търговските обекти в стратата. Търговските обекти в клъстера са 539. Средните месечни продажби се оценяват в диапазона от 3 до 8 хиляди рубли. Средният доход на населението се оценява на 34 хиляди рубли, което е подобно на показателите на 1-ви и 3-ти клъстери от този слой, но по-високи от показателите на повечето клъстери от други слоеве.

Средната цена на 1 квадратен метър жилище е 61 - 63 хиляди рубли, а средната цена за наемане на едностаен апартамент ще бъде 14 - 15 хиляди рубли, както в първия клъстер. Броят на местата за привличане на населението от всякакъв тип в радиус от 1000 метра е 7-8 единици, а търговските обекти на вериги извън KA в радиус от 1000 метра се оценяват в диапазона от 24 до 43 единици. Броят на изводите на КА-мрежата в радиус от 1000 м ще бъде 2. Не повече от две жп гари в радиус от 1000 м. Важна характеристика е липсата на метростанции в радиус от 1000 м. Броят на спирките на наземния градски транспорт в радиус от 1000 метра е средно 3-4.

Географски характеристики на клъстера : Разстоянието до най-близкия MPN от всякакъв тип е доста ниско и се характеризира като близко. Разстоянието от най-близката жп гара е голямо, характеристиките са далеч. Пълна липса на метростанции. Характеристика, различна от клъстер 1, е голямото разстояние до най-близката спирка на обществения транспорт (далеч). Разстоянието до най-близкия търговски обект извън веригата KA е малко - наблизо. А разстоянието до най-близкия контакт на KA-мрежата е голямо - далече

· 3-ти клъстер -той е център на големите градове.

Профил на клъстера : Най-високите стойности за броя на местата за привличане на населението, показателите за търговска дейност и други места, показващи високо ниво на икономическа активност и човешки поток.

Основни количествени и качествени характеристики на клъстера: Отчита 25,9% процента от общия брой търговски обекти в страта. Този клъстер включва размер от 1139 търговски обекта. Средните месечни продажби варират от 3,2 до 10 хиляди рубли. Средният доход на населението е 36 хиляди рубли и е сравнително добър показател - по-висок среден

Средната цена на 1 квадратен метър жилище се оценява на 63 - 68 хиляди рубли, а средната цена за наемане на едностаен апартамент е приблизително 14 - 15 хиляди рубли, което не се различава от показателите на 1-ви и 2-ри клъстери , Броят на MPN от всякакъв тип в радиус от 1000 метра височина и равен на 51 - 66 единици, и има 46 - 55 единици търговски обекти на вериги, които не са KA в радиус от 1000 метра, което също е високо фигура.

Броят на търговските обекти на веригата КА в радиус от 1000 метра е 15 - много. Наличието на жп гари в радиус от 1000 метра е приблизително една или две. Броят на метростанциите в радиус от 1000 метра е средно една, но не повече от 3. Броят на спирките на наземния градски транспорт в радиус от 1000 метра е 20-30, което е много висока цифра.

Географски характеристики на клъстера : Разстоянието до най-близкия МПН от всякакъв тип е ниско - наблизо Разстоянието до най-близката жп гара също е малко, характеристиката е близо. Разстоянието до най-близката метростанция е ниско - близо.

Най-близката спирка на градския транспорт е на много малко разстояние - наблизо. Малко разстояние до най-близкия контакт извън KA-мрежата - наблизо. Разстоянието от най-близкия контакт на KA-мрежата също е много малко - наблизо.

· 4-ти клъстер - Това са жилищни, скъпи райони и отдалечени от центъра частни имоти.

Профил на клъстера : Най-високите стойности на разходните характеристики (доходи, недвижими имоти), най-ниските стойности на броя на MPN, търговските показатели. Той представлява едва 0,4% от всички търговски обекти в стратата.

Основни количествени и качествени характеристики на клъстера : Клъстерът включва само 16 търговски обекта и е най-малкият от всички клъстери в страта. Продажбите на месец варират от 4 до 40 хиляди рубли. Средният месечен доход на населението е 49-66 хиляди рубли, което е много висока цифра. Средната цена на 1 квадратен метър жилище също е много висока и се оценява на 85 - 124 хиляди рубли. Средната цена за наемане на едностаен апартамент е по-висока, отколкото в други клъстери от тази прослойка и възлиза на 21-34 хиляди рубли. Броят на MPN от всякакъв вид в радиус от 1000 метра е нисък - от 4 до 20. В близост няма търговски обекти на вериги извън KA в радиус от 1000 метра. Броят на изходите на KA-мрежата в радиус от 1000 метра е 2. Наличието на железопътни гари в радиус от 1000 метра е не повече от една. В радиус от 1000 метра има не повече от две метростанции. Броят на спирките на наземния градски транспорт в радиус от 1000 метра е само една.

Географски характеристики на клъстера : Разстоянието до най-близкия MPN от всякакъв тип е ниско - близо. Разстоянието от най-близката гара е голямо - далече. Няма метростанции - в близост няма. Разстоянието до най-близката спирка на наземен градски транспорт е голямо, характеристиката е далеч. Разстоянието до най-близкия търговски обект, който не е на KA, е много голямо - далече. Този клъстер се характеризира с отсъствието на търговски обекти от веригата КА – няма в близост.

прослойкаЗа втората страта (9269 търговски обекта), чрез прилагане на метода на k-средните стойности (глава 2, параграф 2.3), е получено оптимално разделение на 5 клъстера на базата на 15 характеристики. Броят на клъстерите е избран въз основа на оптимизация на критерия Akaike.

Фигура 35 Съотношение на клъстерите във втория слой

· 5-ти клъстер - Това са покрайнините на градовете, малките населени места.

Профил на клъстера : Средни стойности на показателите за развитие на инфраструктурата (има руски железници, спирки). Търговската дейност се извършва само в някои мрежи, различни от Ka. Най-ниски стойности на показателите за икономическа активност в страта.

Основни количествени и качествени характеристики на клъстера : Той представлява 10% от общия брой търговски обекти в страта. Този клъстер включва 892 търговски обекта. Средните месечни продажби се оценяват в диапазона от 2,4 до 6 хиляди рубли. Доходът на населението се оценява средно на 27 хиляди рубли, което е ниска цифра в сравнение с показателите на клъстерите от първия слой.

Средната цена на 1 квадратен метър жилище варира около 47-53 хиляди рубли, което също е по-ниско от показателите на 1 страта. Средната цена за наемане на едностаен апартамент е 12 хиляди рубли. Броят на MPN от всякакъв тип в радиус от 1000 метра варира от 2 до 5 броя. Наличието на търговски обекти извън ка-мрежата в радиус от 1000 метра е 9-30. В радиус от 1000 метра има пълна липса на търговски обекти от ka-network - в близост няма. Броят на гарите в радиус от 1000 метра е не повече от 2. Спирките на наземния градски транспорт в радиус от 1000 метра са средно две.

Географски характеристики на клъстера : Малко разстояние до най-близкия MPN от всякакъв тип - не е далеч. Разстоянието от най-близката жп гара е голямо, характеристиките са далеч. Голямо ще е и разстоянието до най-близката спирка на наземния градски транспорт – далече. Разстоянието от най-близкия изход без мрежа е незначително, характеристиката е наблизо. И разстоянието до най-близкия изход на ka-мрежата е голямо - точките са далеч.

· 6-ти клъстер - това са жилищни, спални райони на градовете .

Профил на клъстера : Средни показатели за търговска активност поради нека-мрежи и показатели за икономическа активност поради близки MPN;

Основни количествени и качествени характеристики на клъстера : Клъстерът представлява 15% от общия брой търговски обекти в страта и включва 1345 търговски обекта.Месечните продажби се оценяват на 3-6 хиляди рубли. Средният доход на населението е 26 хиляди рубли, което е средно за тази прослойка. Средната цена на 1 квадратен метър жилище е 53 хиляди рубли, а средната цена за наемане на едностаен апартамент ще бъде 12 хиляди рубли, както в предишния клъстер. Броят на MPN от всякакъв тип в радиус от 1000 метра е 18-25 броя, а броят на изходите без мрежа в радиус от 1000 метра е от 30 до 44 броя. Броят на изходите на ka-мрежата в радиус от 1000 метра е средно 6-9, което е висока цифра. В радиус от 1000 метра има не повече от две жп гари. Пълна липса на спирки на наземен градски транспорт в радиус от 1000 метра.

Разстоянието до най-близкия MPN от всякакъв тип е ниско - наблизо,

и най-близката жп гара също е близо.

Разстоянието до най-близката спирка на наземен градски транспорт е голямо, характеристиката е далеч. Близо е до най-близкия извод на нека-мрежата, както и до най-близкия извод на ка-мрежата.

· 7-ми клъстер - това са райони близо до центъра на градовете, близо до магистрали

Профил на клъстера : Високи показатели за търговска дейност и развитие на инфраструктурата (спирки на наземен транспорт), средни показатели за MPN.

Основни количествени и качествени характеристики на клъстера: Той представлява 34% от общия брой търговски обекти в стратата.Този клъстер включва 3194 търговски обекта и е най-големият в стратата, заедно с 8-ия клъстер.

Месечните продажби се оценяват в диапазона от 2 до 6 хиляди рубли.

Средният доход на населението е 28 хиляди рубли.

Средната цена на 1 квадратен метър жилище е 42-49 и е по-ниска от аналогичните показатели в 5-ти и 6-ти клъстър.

Средната цена за наемане на едностаен апартамент практически не се различава от разглежданите по-рано клъстери от тази прослойка и възлиза на 11-12 хиляди рубли.

Броят на MPN от всякакъв тип в радиус от 1000 метра е 21-33, а броят на търговските обекти на различни от ka-мрежи в радиус от 1000 метра е около 50. Броят на търговските обекти на ka-мрежите в радиус от 1000 метра е средно 7-10. В радиус от 1000 метра няма жп гари.

В радиус от 1000 метра има около 14 спирки на наземен градски транспорт.

Географски характеристики на клъстера : Малко разстояние до най-близкия MPN от всякакъв тип, голямо разстояние до най-близката жп гара Близо до най-близката спирка на наземен градски транспорт Разстоянието до най-близкия изход извън мрежата е малко, характерно - наблизо. Най-близкият контакт на ka-мрежата също е близо.

· 8-ми клъстер - това са центрове на малки градове (~500 хил. души).

Профил на клъстера : Значителен брой MPN, висока концентрация на търговски площи и ниски инфраструктурни показатели.

Основни количествени и качествени характеристики на клъстера: Той представлява 34% от общия брой търговски обекти в страта.Този клъстер включва 3191 търговски обекта и е най-големият в страта, заедно със 7-ия клъстер.Средните месечни данни за продажбите са 3-8 хиляди рубли.Средната месечна доходите на населението се оценяват на 28 хиляди рубли.Средната цена на 1 квадратен метър жилище е 47 - 50 хиляди рубли, а средната цена за наемане на едностаен апартамент е 12 хиляди рубли. Броят на MPN от всякакъв тип в радиус от 1000 метра е средно 28-40 броя, наличието на търговски обекти на нека-мрежи в радиус от 1000 метра е от 38 до 52 броя. Наличие на търговски обекти ka-network в радиус от 1000 метра - от 7 до 11 бр. В радиус от 1000 м. няма жп гари, спирките на наземния градски транспорт в радиус от 1000 м. са много малко, почти ги няма.

Географски характеристики на клъстера : В близост е най-близкият МПН от всякакъв тип.Разстоянието до най-близката жп гара е голямо, характеристиката е далеч.Разстоянието до най-близката спирка на наземен градски транспорт също е голямо - далеч. Най-близкият контакт на мрежата ka е близо Разстоянието до най-близкия контакт на мрежата ka е близо.

· 9-ти клъстер - Това са градски центрове с население до 1 милион души.

Профил на клъстера : Най-високи стойности на показателите за икономическа и търговска дейност в страта.

Основни количествени и качествени характеристики на клъстера : Той представлява 7% процента от общия брой търговски обекти в страта.Този клъстер включва 647 търговски обекта и е най-малкият в страта.Месечните продажби са 6-8 хиляди рубли и това е по-високо от подобни показатели на други клъстери в този слой. Доходите на населението, както и в други клъстери на прослойката, се оценяват на 28 хиляди рубли. Средната цена на 1 квадратен метър жилище е 50-53 хиляди рубли.Средната цена за наемане на едностаен апартамент също не се различава от подобни показатели в други клъстери на слоевете и е равна на 12 хиляди рубли.

Броят на MPN от всякакъв тип в радиус от 1000 метра е 90 броя и е много висок показател, а броят на изходите без ка-мрежа в радиус от 1000 метра е 155 броя, което също може да се нарече много висок показател. Броят на изходите на ka-мрежата в радиус от 1000 метра е 20-21 единици. В радиус от 1000 метра няма жп гари.

Броят на спирките на наземния градски транспорт в радиус от 1000 метра е около 15-18.

Географски характеристики на клъстера : Най-близкият MPN от всякакъв тип е наблизо, но най-близката жп гара е далеч. Недалеч е от най-близката спирка на градския транспорт. Разстоянието до най-близкия изход, който не е от ka-мрежата, е малко, той е наблизо, а най-близкият изход от ka-мрежата също е близо.

прослойкаЗа третата страта (1958 търговски обекта), чрез прилагане на метода на k-средните стойности (Глава 2, параграф 2.3), беше получено оптимално разделение на 2 клъстера въз основа на 13 характеристики, тъй като в тази страта няма търговски обекти, близки до метро. Броят на клъстерите е избран въз основа на оптимизация на критерия Akaike.

Фигура 36 Съотношение на клъстерите в третия слой

· 10-ти клъстер - Това са отдалечени райони и градове с по-малко население.

Профил на клъстера : Ниска икономическа активност, средна степен на търговска активност.

Основни количествени и качествени характеристики на клъстера: Той съставлява 55% от общия брой търговски обекти в страта.Този клъстер включва 1084 търговски обекта.Доходът на населението се оценява на 24 хиляди рубли, което е по-ниско от показателите на 1-ви и 2-ри слоеве.Средно месечно продажбите се оценяват на 18 хиляди рубли, което е значително по-високо от показателите на 1-ви и 2-ри слоеве. Характеризира се с отсъствието на MPN от всякакъв тип в радиус от 1000 м. Броят на изходите на мрежата, която не е ka, в радиус от 1000 метра е от 15 до 40. В радиус от 1000 има 3 изхода на ka-мрежи м. Като правило в радиус от 1000 м няма жп гари .75% нямат спирки на наземен градски транспорт в радиус от 1000 м, останалите 25% имат до 20 спирки.

Географски характеристики на клъстера: В близост няма MPN от какъвто и да е вид, няма и жп гари. В близост няма спирки на градски транспорт. Разстоянието до най-близкия изход, който не е от ka-мрежата, е малко - той е наблизо, а най-близкият изход от ka-мрежата също е близо.

· 11-ти клъстер - центрове на малки градове, търговски площи.

Профил на клъстера: Значителна степен на икономическа и търговска активност.

По правило в радиус от 1000 метра няма железопътни гари.

Брой спирки на наземен градски транспорт в радиус от 1000 метра: 75% нямат търговски обекти, останалите 25% имат до 22.

Географски характеристики на клъстера : Разстоянието до най-близкия МПН от всякакъв вид е ниско, а в близост няма ЖП гари, както и спирки на наземен градски транспорт. Разстоянието до най-близкия изход извън мрежата е малко, точките са разположени наблизо. Разстоянието до най-близкия изход на ka-мрежата също е малко.

прослойкаЗа четвъртата страта (20 969 търговски обекта), чрез прилагане на метода на k-средните стойности (Глава 2, параграф 2.3), беше получено оптимално разделение на 4 клъстера въз основа на 12 характеристики, тъй като в тази страта няма търговски обекти в близост до транспортна инфраструктура. Броят на клъстерите е избран въз основа на оптимизация на критерия Akaike.

Фигура 37 Съотношение на клъстерите в четвъртия слой

· 12-ти клъстер - покрайнини на малки населени места.

Профил на клъстера : най-ниски нива на доходи, липса на транспортна инфраструктура, малко магазини.

Основни количествени и качествени характеристики на клъстера: Той представлява 37% от общия брой търговски обекти в слоевете.Този клъстер включва 7682 търговски обекта.Доходът на населението се оценява на 18-20 хиляди рубли, което е значително по-ниско от подобни показатели за други слоеве.

Месечните продажби възлизат на 19-35 хиляди рубли. Няма MPN от какъвто и да е тип в радиус от 1000 метра. Броят на търговските обекти извън ka-мрежата в радиус от 1000 метра е 3 - 8. Липса на изводи на ка-мрежата в радиус от 1000 метра. В радиус от 1000 метра няма ЖП гари, както и спирки на наземен градски транспорт. Разстоянието до най-близкия произволен MPN е голямо - далеч. Най-близката жп гара също е далеч. Разстоянието от най-близката спирка на наземен градски транспорт е голямо - далече. Най-близкият контакт на мрежата ka е близо, но най-близкият контакт на мрежата ka е далеч.

· 13-ти клъстер - търговските зони на малките градове

Профил на клъстера : Средни показатели за търговска активност, слаби признаци за наличие на транспортна инфраструктура.

Основни количествени и качествени характеристики на клъстера: Той съставлява 31% от общия брой търговски обекти в страта.Този клъстер включва 6514 търговски обекта.Доходът на населението се оценява на 21-24 хиляди рубли, което е значително по-ниско от подобни показатели за други слоеве, но по-високо от индикатор за 12-ия клъстер на този слой.

Месечните продажби са 21-46 хиляди рубли.Няма MPN от всякакъв тип в радиус от 1000 метра.Броят на изходите без мрежа в радиус от 1000 метра е 18-28.Има 2-3 ka- мрежови контакти в радиус от 1000 метра. В радиус от 1000 метра няма жп гари.

Повечето нямат спирки на наземен градски транспорт в радиус от 1000 метра, някои имат до 3.

Географски характеристики на клъстера : Далеч е от най-близкия MPN от всякакъв тип и е точно толкова далеч от най-близката жп гара, колкото и от най-близката спирка на наземен обществен транспорт. Най-близкият търговски обект не е ka-мрежа наблизо. Разстоянието до най-близкия изход на ka-мрежата е малко - недалеч (до 1 км).

· 14-ти клъстер - малки градове с най-ниска търговска активност

Профил на клъстера : Най-ниските показатели за търговска дейност, с минимален набор от магазини. Средно ниво на доходите на населението.

Основни количествени и качествени характеристики на клъстера: Той съставлява 20% от общия брой търговски обекти в слоевете Този клъстер включва 4188 търговски обекта Доходът на населението се оценява на 24-26 хиляди рубли, което е значително по-ниско от подобни показатели за други слоеве, но по-високо от индикатори за 12-ти и 13-ти клъстери на този слой. Месечните продажби възлизат на 21-38 хиляди рубли.

Пълна липса на MPN от всякакъв вид в радиус от 1000 метра.

Броят на изводите, които не са от ka-мрежата в радиус от 1000 метра е от 1 до 4, а в радиус от 1000 метра няма изводи от ka-мрежата. Липса на жп гари в радиус от 1000 метра. В радиус от 1000 метра няма спирки на наземен градски транспорт.

Географски характеристики на клъстера : Най-близкият MPN от всякакъв тип е далеч, както и най-близката жп гара и най-близката спирка на наземен градски транспорт.Разстоянието до най-близкия търговски обект не е ka-мрежа: половината са до 400м, останалите са далеч. Разстоянието до най-близкия контакт на ka-мрежата е голямо.

· 15-ти клъстер - икономически активни селища с население под 100 хиляди души.

Профил на клъстера : Единственият клъстер, в който има признаци на икономическа активност в слоя. Най-високите нива на търговска активност.

Основни количествени и качествени характеристики на клъстера: Той съставлява 12% от общия брой търговски обекти в страта.Този клъстер включва 2585 търговски обекта.Доходът на населението е 25-28 хиляди рубли, което е значително по-ниско от подобни показатели на други слоеве, но по-високо от индикатори на други клъстери от този слой. Месечните продажби са 24-52 хиляди рубли, което е най-високата цифра сред всички слоеве.

Има 2-7 MPN от всякакъв тип в радиус от 1000 м. Броят на изходите, които не са в мрежата ka в радиус от 1000 метра, е от 14 до 28, изходите в мрежата ka в радиус от 1000 метра от 1 до 4. Железопътни гари в радиус от 1000 м. Броят на спирките на наземния градски транспорт в радиус от 1000 м липсва за мнозинството, някои са до 7.

Географски характеристики на клъстера : Близо е до най-близкото МПН от всякакъв вид, но далеч от най-близката ЖП гара, както и до най-близката спирка на наземен градски транспорт. Разстоянието до най-близкия изход извън мрежата е малко - те са наблизо. Разстоянието до най-близкия контакт на ка-мрежата е до 500м за половината и далеч за останалите.

3.7 Групиране на асортимента от търговски обекти

Фигура 38 Брой ТТ с групиран асортимент

Чрез прилагане на метода на двуетапен клъстерен анализ асортиментът от търговски обекти е разделен на 5 клъстера. Мярката на силуета е 0,2, което е средното качество на разделянето на клъстерите. Размерите на всеки от тях можете да видите на фигурата по-долу. Най-големият клъстер е първият, той съставлява почти 59% (17 622 търговски обекта) от всички клъстери. Най-малкият клъстер 5 е почти 2% - 452 търговски обекта. Разлики от групирането на търговски обекти: Разделяне на стоки, които са възможно най-различни една от друга, и ТТ бяха комбинирани въз основа на принципа на сходство между тях.

17 Дял на всеки клъстер


Фигура 39 Ширина на асортимента във всеки клъстер

· Първи клъстер -Това е асортиментната група с най-малък избор. Това са сладки или шоколадови блокчета в малки опаковки. Такъв продукт най-вероятно се представя на бензиностанции или в малки палатки. Петте най-продавани продукта в този клъстер са: горчив шоколад Бабаевски 100 грама, шоколад Аленка 15 грама, шоколад Аленка 100 грама, сладкарско блокче „Добра компания” с вафлени трохи 80 грама и шоколадово блокче „Добра компания” с фъстъци 80 грама.

· Втори клъстер -Тази група стоки със среден избор на асортимент се отнася за магазини в градове с население над 250 хиляди души. Петте най-продавани продукта в този клъстер са: сладкарско блокче „Добра компания” с вафлени трохи 80 грама, шоколад Аленка 20 грама, шоколад Аленка с много мляко 100 грама, шоколадово блокче „Добра компания” с фъстъци 80 грама и млечен Аленка шоколад с многоцветни дражета.

· Трети клъстер -Тази група предлага малък избор от продукти. Това са предимно шоколадови изделия и вафлени торти. Тази категория стоки включва магазини в малки градове или села. Петте най-продавани продукта в този клъстер: шоколад Аленка 100 грама, шоколад Аленка 15 грама, шоколад Аленка 20 грама, карамел Москвичка и горчив шоколад Бабаевски 100 грама

· Четвърти клъстер -Това са клъстери с голям избор от асортименти. Тази група продукти принадлежи към големите маркови сладкарски магазини в големите градове. Петте най-продавани продукта в този клъстер са: шоколад „Аленка“ 100 грама, карамел „Москвичка“, горчив шоколад „Бабаевски“ 100 грама, вафли „Коровка“ с вкус на прясно мляко и бонбони „Ромашка“.

· Пети клъстер -Това са клъстерите с най-голям избор от асортименти. Тази група продукти принадлежи към големите маркови сладкарски магазини в сателитните градове. Петте най-продавани продукта в този клъстер са: бонбони „Птиче мляко“, карамел „Москвичка“, шоколад „Аленка“ 100 грама, горчив „Бабаевски“ 100 грама и вафли „Коровка“ с вкус на печено мляко.

Можем да заключим, че най-популярният продукт е шоколадът Alenka. Именно този продукт се намира сред лидерите във всеки клъстер.

Заключение към трета глава

Изследване, проведено с помощта на клъстерен анализ, помогна за разделянето на търговските обекти на дребно на слоеве по местоположение, след което всеки слой беше разделен на клъстери. В резултат на това такъв клъстерен анализ спомогна за намаляване на хомогенността с 1,77. Бяха анализирани и идентифицирани връзките между социално-демографските показатели (пол, възраст, доход) и потребителското поведение. Извършено е и групиране на асортимента от търговски обекти, което позволява да се установи, че клъстерът с най-голям брой обекти има най-малък асортимент.

Заключение

Големите данни не са просто още един хайп на ИТ пазара, това е систематичен, висококачествен преход към създаването на вериги за стойност, базирани на знанието. По ефект може да се сравни с навлизането на достъпните компютърни технологии в края на миналия век. Докато късогледите консерватори ще използват дълбоко остарели подходи, предприятията, които вече използват технологиите за големи данни, в бъдеще ще се окажат на водещи позиции и ще получат конкурентни предимства на пазара. Няма съмнение, че всички големи организации ще внедрят тази технология през следващите години, тъй като тя е както настоящето, така и бъдещето.

Тази дисертация представлява научен, систематичен подход при избора на местоположението на търговските обекти, а методите за получаване и анализ на информация за получаване на крайния резултат са много евтини, което позволява подобна процедура да бъде извършена дори от индивидуални предприемачи с малка оборот на средства.

Като се има предвид нарастващото темпо на натрупване на информация, има спешна нужда от технологии за анализ на данни, които в това отношение също се развиват бързо. Развитието на тези технологии през последните години направи възможно преминаването от сегментиране на клиенти в групи със сходни предпочитания към изграждане на модели в реално време, базирани, наред с други неща, на техните интернет заявки и посещения на определени страници. Става възможно да се насочват конкретни оферти и реклами въз основа на анализ на потребителските интереси, което прави тези оферти много по-насочени. Също така е възможно да коригирате и преконфигурирате модела в реално време.

Клъстерният анализ наистина може да се нарече най-удобният и оптимален инструмент за идентифициране на пазарни сегменти. Използването на тези методи стана особено важно в ерата на високите технологии, в която е толкова важно да се ускорят трудоемките и отнемащи време процеси с помощта на технологиите. Променливите, използвани като основа за клъстериране, ще бъдат правилно избрани въз основа на опита от предишни проучвания, теоретични предпоставки, различни тествани хипотези, както и въз основа на желанията на изследователя. Освен това се препоръчва да се вземе подходяща мярка за сходство. Отличителна черта на йерархичното групиране е развитието на йерархична структура. Най-разпространеният и ефективен дисперсионен метод е методът на Бард. Методите за нейерархично клъстериране често се наричат ​​методи на k-средни стойности. Изборът на метод за групиране и изборът на мярка за разстояние са взаимосвързани. При йерархично групиране важен критерий за вземане на решение относно броя на клъстерите са разстоянията, на които клъстерите се сливат. Размерите на клъстерите трябва да бъдат такива, че да има смисъл да се запази този клъстер, а не да се слее с други. Надеждността и валидността на решенията за клъстериране се оценяват по различни начини.

Изследване, проведено с помощта на клъстерен анализ, помогна за разделянето на търговските обекти на дребно на слоеве по местоположение, след което всеки слой беше разделен на клъстери. В резултат на това такъв клъстерен анализ спомогна за намаляване на хомогенността с 1,77. Бяха анализирани и идентифицирани връзките между социално-демографските показатели (пол, възраст, доход) и потребителското поведение. Извършено е и групиране на асортимента от търговски обекти, което позволява да се установи, че клъстерът с най-голям брой обекти има най-малък асортимент.

Библиография

1. StatSoft - Електронен учебник по статистика

2. Мандел И.Д. Клъстерен анализ., 1988

Н. Паклин. „Клъстериране на данни: мащабируем CLOPE алгоритъм.“

Olenderfer M. S., Blashfield R. K. Клъстерен анализ / Факторен, дискриминантен и клъстерен анализ: прев. от английски; Под. изд. И. С. Енюкова. - М.: Финанси и статистика, 1989-215 с.

Даниел Фасуло „Анализ на скорошна работа върху алгоритми за групиране“.

Durand B., Odell P. Клъстерен анализ. М.: Статистика, 1977

Zhamby M. Йерархичен клъстерен анализ и кореспонденция, 1988

Khaidukov D. S. Приложение на клъстерния анализ в публичната администрация // Философия на математиката: текущи проблеми. - М.: MAKS Press, 2009. - 287 с.

Класификация и клъстер. Изд. Дж. Ван Ризина. М.: Мир, 1980.

Tryon R.S. Клъстерен анализ - Лондон:, 1939. - 139 с.

Бериков В. С., Лбов Г. С. Съвременни тенденции в клъстерния анализ 2008. - 67 с.

Вятченин Д. А. Размити методи за автоматична класификация. - Минск: Технопринт, 2004. - 320 с.

И. А. Чубукова Извличане на данни. Урок. - М .: Интернет университет по информационни технологии;

Н. Паклин. „Клъстериране на категорични данни: мащабируем CLOPE алгоритъм.“

16. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim „CURE: ефективен алгоритъм за клъстериране за големи бази данни.“ Електронно издание.

17. Tian Zhang, Raghu Ramakrishnan, Miron Livny „BIRCH: ефективен метод за клъстериране на данни за много големи бази данни.“

Н. Паклин „Алгоритми за групиране за услугата Data Mining.“

Ян Янсън "Моделиране".

20. И. А. Чубукова Извличане на данни. Учебник., 2006.

. „Анализ на достъпни данни“, Анил Махешвари

Кенет Кекиър „Големи данни: революцията, която ще промени начина, по който живеем, работим и мислим“

Кейти О'Нийл и Рейчъл Шут "Наука за данни"

Има два основни типа клъстерен анализ в статистиката (и двата се намират в SPSS): йерархичен и k-средно. В първия случай автоматизирана статистическа процедура независимо определя оптималния брой клъстери и редица други параметри, необходими за клъстера

анализ. Вторият тип анализ има значителни ограничения в практическата приложимост - за него е необходимо независимо да се определи точният брой клъстери, които да бъдат разпределени, както и началните стойности на центровете на всеки клъстер (центроиди) и някои други статистики. Когато се анализира методът на k-средните стойности, тези проблеми се решават чрез първо провеждане на йерархичен клъстерен анализ и след това, въз основа на неговите резултати, изчисляване на клъстерен модел с помощта на метода на k-средни стойности, който в повечето случаи не само не опростява, но, напротив, усложнява работата на изследователя (особено необучения).

Като цяло можем да кажем, че поради факта, че йерархичният клъстерен анализ е много взискателен към ресурсите на компютърния хардуер, клъстерният анализ, използващ метода k-средни стойности, беше въведен в SPSS за обработка на много големи масиви от данни, състоящи се от много хиляди наблюдения (респонденти) , при условия на недостатъчна мощност на компютърната техника1. Размерите на извадките, използвани в маркетинговите проучвания, в повечето случаи не надвишават четири хиляди респонденти. Практиката на маркетинговите проучвания показва, че именно първият вид клъстерен анализ - йерархичният - се препоръчва за използване във всички случаи като най-подходящ, универсален и точен. Все пак трябва да се подчертае, че при провеждането на клъстерен анализ изборът на релевантни променливи е важен. Тази забележка е много важна, тъй като включването на няколко или дори една нерелевантна променлива в анализа може да доведе до провал на цялата статистическа процедура.

Ще опишем методологията за провеждане на клъстерен анализ, използвайки следния пример от практиката на маркетинговите проучвания.

Първоначални данни:

По време на проучването бяха анкетирани 745 пътници, летящи с една от 22 руски и чуждестранни авиокомпании. Въздушните пътници бяха помолени да оценят по петобална скала - от 1 (много лошо) до 5 (отлично) - седем параметъра на работата на наземния персонал на авиокомпанията по време на процеса на регистрация на пътниците за полет: учтивост, професионализъм, ефективност, желание за помощ, управление на опашка, външен вид, работен персонал като цяло.

Задължително:

Да се ​​сегментират изследваните авиокомпании според нивото на качество на работа на наземния персонал, възприемано от въздушните пътници.

И така, имаме файл с данни, който се състои от седем интервални променливи, показващи оценки на качеството на работа на наземния персонал на различни авиокомпании (ql3-ql9), представени по една петобална скала. Файлът с данни съдържа променлива с една променлива q4, указваща авиокомпаниите, избрани от респондентите (общо 22 имена). Ще направим клъстерен анализ и ще определим на кои целеви групи могат да бъдат разделени тези авиокомпании.

Йерархичният клъстерен анализ се извършва на два етапа. Резултатът от първия етап е броят на клъстерите (целевите сегменти), на които трябва да бъде разделена извадката от изследваните респонденти. Процедурата за клъстерен анализ като такава не е такава

може самостоятелно да определи оптималния брой клъстери. Тя може само да предложи необходимия брой. Тъй като задачата за определяне на оптималния брой сегменти е ключова, тя обикновено се решава на отделен етап от анализа. На втория етап се извършва действителното клъстериране на наблюденията според броя на клъстерите, който е определен по време на първия етап на анализа. Нека сега разгледаме тези стъпки на клъстерния анализ по ред.

Процедурата за клъстерен анализ се стартира с помощта на менюто Анализ > Класифициране > Йерархичен клъстер. В диалоговия прозорец, който се отваря, от левия списък на всички променливи, налични във файла с данни, изберете променливите, които са критериите за сегментиране. В нашия случай има седем от тях и те показват оценки на работните параметри на наземния персонал ql3-ql9 (фиг. 5.44). По принцип определянето на набор от критерии за сегментиране ще бъде напълно достатъчно за извършване на първия етап от клъстерния анализ.

Ориз. 5.44.

По подразбиране, в допълнение към таблицата с резултатите от формирането на клъстери, въз основа на които ще определим оптималния им брой, SPSS показва и специална обърната хистограма на висулка, която според създателите на програмата помага да се определи оптималната брой клъстери; Графиките се показват с помощта на бутона Графики (фиг. 5.45). Въпреки това, ако оставим тази опция зададена, ще прекараме много време в обработка дори на сравнително малък файл с данни. В допълнение към icicle, можете да изберете по-бързата лентова диаграма Dendogram в прозореца Plots. Състои се от хоризонтални ленти, отразяващи процеса на образуване на клъстери. Теоретично, при малък (до 50-100) брой респонденти, тази диаграма наистина помага да се избере оптималното решение по отношение на необходимия брой клъстери. Но в почти всички примери от маркетингови проучвания размерът на извадката надвишава тази стойност. Дендограмата става напълно безполезна, тъй като дори при сравнително малък брой наблюдения тя представлява много дълга последователност от номера на редове в оригиналния файл с данни, свързани с хоризонтални и вертикални линии. Повечето учебници по SPSS съдържат примери за клъстерен анализ, използвайки точно такива изкуствени, малки проби. В това ръководство ние показваме как да работим най-ефективно със SPSS в практическа обстановка и като използваме реално маркетингово проучване като пример.

Ориз. 5.45.

Както установихме, нито Icicle, нито Dendogram са подходящи за практически цели. Поради това се препоръчва да не показвате графики в главния диалогов прозорец за йерархичен клъстерен анализ, като премахнете отметката от опцията Графики по подразбиране в областта за показване, както е показано на Фигура 1. 5.44. Сега сте готови да извършите първия етап от клъстерния анализ. Стартирайте процедурата, като щракнете върху бутона OK.

След известно време резултатите ще се появят в прозореца на SPSS Viewer. Както бе споменато по-горе, единственият значим резултат за нас от първия етап на анализа ще бъде таблицата за средна връзка (между групи), показана на фиг. 5.46. Въз основа на тази таблица трябва да определим оптималния брой клъстери. Трябва да се отбележи, че няма единен универсален метод за определяне на оптималния брой клъстери. Във всеки конкретен случай изследователят трябва сам да определи това число.

Въз основа на съществуващия опит авторът предлага следната схема за този процес. Първо, нека се опитаме да приложим най-често срещания стандартен метод за определяне на броя на клъстерите. Използвайки таблицата за средна връзка (между групи), трябва да определите на коя стъпка от процеса на формиране на клъстер (колона Етап) възниква първият относително голям скок в коефициента на агломерация (колона Коефициенти). Този скок означава, че преди това наблюденията, разположени на сравнително малки разстояния едно от друго (в нашия случай респонденти с подобни нива на оценки на анализираните параметри), бяха комбинирани в клъстери и започвайки от този етап, по-отдалечените наблюдения се комбинират.

В нашия случай коефициентите плавно нарастват от 0 до 7.452, тоест разликата между коефициентите на стъпки от първата до 728 беше малка (например между 728 и 727 стъпки - 0.534). Започвайки от стъпка 729, настъпва първият значителен скок в коефициента: от 7,452 до 10,364 (с 2,912). Стъпката, при която се появява първият скок в коефициента, е 729. Сега, за да определите оптималния брой клъстери, трябва да извадите получената стойност от общия брой наблюдения (размер на извадката). Общият размер на извадката в нашия случай е 745 души; следователно оптималният брой клъстери е 745-729 = 16.


Ориз. 5.46.

Получихме доста голям брой клъстери, които ще бъдат трудни за тълкуване в бъдеще. Ето защо сега трябва да разгледате получените клъстери и да определите кои от тях са значими и кои трябва да се опитате да намалите. Този проблем се решава на втория етап от клъстерния анализ.

Отворете главния диалогов прозорец на процедурата за клъстерен анализ (меню Анализ > Класифициране > Йерархичен клъстер). В полето за анализираните променливи вече имаме седем параметъра. Щракнете върху бутона Запиши. Диалоговият прозорец, който се отваря (фиг. 5.47), ви позволява да създадете нова променлива във файла с изходни данни, която разпределя респондентите в целеви групи. Изберете опцията Единично решение и посочете в съответното поле необходимия брой клъстери - 16 (определени на първия етап от клъстерния анализ). С щракване върху бутона Продължи се върнете към основния диалогов прозорец, в който щракнете върху бутона OK, за да стартирате процедурата за клъстерен анализ.

Преди да продължите с описанието на процеса на клъстерен анализ, е необходимо да дадете кратко описание на други параметри. Сред тях има както полезни функции, така и всъщност ненужни (от гледна точка на практическите маркетингови изследвания). Например основният диалогов прозорец за йерархичен клъстерен анализ съдържа поле за етикетиране на случаи по, в което по избор можете да поставите текстова променлива, идентифицираща респондентите. В нашия случай за тези цели може да служи променливата q4, кодираща авиокомпаниите, избрани от респондентите. На практика е трудно да се излезе с рационално обяснение за използването на полето Label Cases by, така че винаги можете безопасно да го оставите празно.

Ориз. 5.47.

Рядко, когато се извършва клъстерен анализ, се използва диалоговият прозорец Статистика, извикан от едноименния бутон в основния диалогов прозорец. Тя ви позволява да организирате изхода на таблицата за членство в клъстера в прозореца на SPSS Viewer, в който всеки респондент във файла с изходни данни е свързан с номер на клъстер. При достатъчно голям брой респонденти (в почти всички примери за маркетингово проучване) тази таблица става напълно безполезна, тъй като представлява дълга поредица от двойки стойности на „номер на респондент/номер на клъстер“, които в този си вид не могат да бъдат интерпретирани. Технически, целта на клъстерния анализ винаги е да създаде допълнителна променлива във файла с данни, която отразява разделението на респондентите в целеви групи (чрез щракване върху бутона Запиши в основния диалогов прозорец за клъстерен анализ). Тази променлива, заедно с броя на респондентите, е таблицата за членство в клъстера. Единствената практически полезна опция в прозореца Статистика е показването на таблицата Средна връзка (между групи), но тя вече е инсталирана по подразбиране. Следователно използването на бутона Статистика и показването на отделна таблица за членство в клъстер в прозореца на SPSS Viewer не е практично.

Бутонът Графики вече беше споменат по-горе: той трябва да бъде деактивиран чрез премахване на отметката от опцията Графики в основния диалогов прозорец за клъстерен анализ.

В допълнение към тези рядко използвани характеристики на процедурата за клъстерен анализ, SPSS предлага някои много полезни параметри. Сред тях, на първо място, е бутонът Запазване, който ви позволява да създадете нова променлива в оригиналния файл с данни, който разпределя респондентите в клъстери. Също така в главния диалогов прозорец има област за избор на обект за групиране: респонденти или променливи. Тази възможност беше обсъдена по-горе в раздел 5.4. В първия случай клъстерният анализ се използва главно за сегментиране на респондентите според някои критерии; във втория, целта на клъстерния анализ е подобна на факторния анализ: класификация (намаляване на броя) на променливите.

Както се вижда от фиг. 5.44, единствената неразгледана възможност за клъстерен анализ е бутонът за избор на метод за извършване на статистическата процедура Метод. Експериментите с този параметър ви позволяват да постигнете по-голяма точност при определяне на оптималния брой клъстери. Общият изглед на този диалогов прозорец с настройки по подразбиране е показан на фиг. 5.48.

Ориз. 5.48.

Първото нещо, което се задава в този прозорец, е методът за формиране на клъстери (т.е. комбиниране на наблюдения). Сред всички възможни опции за статистически методи, предлагани от SPSS, трябва да изберете или метода по подразбиране за свързване между групите, или процедурата на Ward (метод на Ward).Първият метод се използва по-често поради своята гъвкавост и относителната простота на статистическите процедура, на която се основава.С помощта на този метод разстоянието между клъстерите се изчислява като средната стойност на разстоянията между всички възможни двойки наблюдения, като всяка итерация включва едно наблюдение от един клъстер и второто от друг.Информацията, необходима за изчисляване разстоянието между наблюденията се намира въз основа на всички теоретично възможни двойки наблюдения. Методът на Уорд е по-труден за разбиране и се използва по-рядко. Състои се от много етапи и се основава на осредняване на стойностите на всички променливи за всяко наблюдение и след това сумиране на квадратите на разстоянията от изчислените средни стойности до всяко наблюдение.За решаване на практически проблеми на маркетинговите изследвания препоръчваме винаги да използвате метода по подразбиране за свързване между групите.

След като изберете процедура за статистическо клъстериране, трябва да изберете метод за изчисляване на разстояния между наблюденията (областта Измерване в диалоговия прозорец Метод). Има различни методи за определяне на разстояния за трите вида променливи, включени в клъстерния анализ (критерии за сегментиране). Тези променливи могат да имат интервална (Interval), номинална (Counts) или дихотомна (Binary) скала. Дихотомичната скала (двоична) включва само променливи, отразяващи настъпването/ненастъпването на дадено събитие (купено/некупено, да/не и т.н.). Други типове дихотомични променливи (напр. мъж/жена) трябва да се третират и анализират като номинални (брои).

Най-често използваният метод за определяне на разстояния за интервални променливи е Евклидовото разстояние на квадрат, което е по подразбиране. Именно този метод се е доказал в маркетинговите проучвания като най-точен и универсален. Въпреки това, за дихотомични променливи, където наблюденията са представени само от две стойности (например 0 и 1), този метод не е подходящ. Факт е, че той взема предвид само взаимодействия между наблюдения от типа: X = 1,Y = 0 и X = 0, Y=l (където X и Y са променливи) и не взема предвид други видове взаимодействия. Най-изчерпателната мярка за разстояние, като се вземат предвид всички важни видове взаимодействия между две дихотомични променливи, е методът Ламбда. Препоръчваме да използвате този конкретен метод поради неговата гъвкавост. Съществуват обаче и други методи, като Shape, Hamann или D на Anderbergs.

Когато посочвате метода за определяне на разстояния за дихотомични променливи, в съответното поле е необходимо да посочите конкретните стойности, които изследваните дихотомични променливи могат да приемат: в полето Настоящо - отговорът, кодиращ Да, и в полето Отсъстващ - Не. Имената на полетата присъстват и отсъстват са свързани с факта, че в групата на двоичните методи се предполага, че се използват само дихотомични променливи, отразяващи настъпването/ненастъпването на дадено събитие. За двата типа променливи Interval и Binary има няколко метода за определяне на разстоянието. За променливи с номинален тип мащаб, SPSS предлага само два метода: (хи-квадрат мярка) и (фи-квадрат мярка). Препоръчваме да използвате първия метод като най-често срещан.

В диалоговия прозорец Метод има област за трансформиране на стойности, която съдържа поле за стандартизиране. Това поле се използва, когато клъстерният анализ включва променливи с различни типове скали (например интервални и номинални). За да се използват тези променливи в клъстерния анализ, трябва да се извърши стандартизация, привеждайки ги в един тип скала - интервал. Най-често срещаният метод за стандартизиране на променливи е 2-стандартизация (Zscores): всички променливи се редуцират до един диапазон от стойности от -3 до +3 и след трансформацията са интервални.

Тъй като всички най-добри методи (групиране и определяне на разстояние) са инсталирани по подразбиране, препоръчително е да използвате диалоговия прозорец Метод само за посочване на типа на променливите за анализ, както и за посочване на необходимостта от 2-стандартизиране на променливите.

И така, описахме всички основни функции, предоставени от SPSS за провеждане на клъстерен анализ. Нека се върнем към описанието на клъстерния анализ, извършен за сегментиране на авиокомпаниите. Нека си припомним, че се спряхме на решение с шестнадесет клъстера и създадохме нова променлива clul6_l в оригиналния файл с данни, която разпределя всички анализирани авиокомпании в клъстери.

За да установим колко правилно сме определили оптималния брой клъстери, нека изградим линейно разпределение на променливата clul6_l (меню Analyze > Descriptive Statistics > Frequencies). Както може да се види на фиг. 5.49, в клъстери с номера 5-16 броят на респондентите е от 1 до 7. Наред с описания по-горе универсален метод за определяне на оптималния брой клъстери (въз основа на разликата между общия брой респонденти и първия скок) в коефициента на агломерация), има и допълнителна препоръка: размерът на клъстерите трябва да бъде статистически значим и практически приемлив. С нашия размер на извадката тази критична стойност може да бъде зададена поне на ниво 10. Виждаме, че само клъстери, номерирани от 1 до 4, попадат под това условие. Следователно сега е необходимо да се преизчисли процедурата за клъстерен анализ с изхода на решение с четири клъстера (ще бъде създадена нова променлива du4_l).


Ориз. 5.49.

След като изградим линейно разпределение за новосъздадената променлива du4_l, ще видим, че само в два клъстера (1 и 2) броят на респондентите е практически значим. Трябва да възстановим модела на клъстера отново - сега за решение с два клъстера. След това ще изградим разпределението върху променливата du2_l (фиг. 5.50). Както се вижда от таблицата, двуклъстерното решение има статистически и практически значим брой респонденти във всеки от двата формирани клъстера: в клъстер 1 - 695 респондента; в клъстер 2 - 40. И така, ние определихме оптималния брой клъстери за нашата задача и извършихме действителното сегментиране на респондентите според седем избрани критерия. Сега можем да считаме основната цел на нашата задача за постигната и да преминем към последния етап от клъстерния анализ - интерпретация на получените целеви групи (сегменти).


Ориз. 5.50.

Полученото решение е малко по-различно от тези, които може да сте виждали в уроците за SPSS. Дори най-практически ориентираните учебници предоставят изкуствени примери, при които клъстерирането води до идеални целеви групи от респонденти. В някои случаи (5) авторите дори директно посочват изкуствения произход на примерите. В това ръководство ще използваме реален пример от практически маркетингови изследвания, който няма идеални пропорции, за да онагледим действието на клъстерния анализ. Това ще ни позволи да покажем най-често срещаните трудности при провеждането на клъстерен анализ, както и най-добрите методи за тяхното отстраняване.

Преди да започнем да интерпретираме получените клъстери, нека обобщим. Имаме следната схема за определяне на оптималния брой клъстери.

¦ На етап 1 определяме броя на клъстерите въз основа на математически метод, базиран на коефициента на агломерация.

¦ На етап 2 групираме респондентите според получения брой клъстери и след това изграждаме линейно разпределение според формираната нова променлива (clul6_l). Тук също трябва да определите колко клъстера се състоят от статистически значим брой респонденти. Като цяло се препоръчва да се определи минималният значим брой клъстери на ниво от поне 10 респондента.

¦ Ако всички клъстери отговарят на този критерий, преминаваме към последния етап от клъстерния анализ: интерпретация на клъстерите. Ако има клъстери с незначителен брой наблюдения, които ги съставят, установяваме колко клъстера се състоят от значителен брой респонденти.

¦ Ние преизчисляваме процедурата за клъстерен анализ, като посочваме в диалоговия прозорец Запазване броя на клъстерите, състоящи се от значителен брой наблюдения.

¦ Конструираме линейно разпределение за нова променлива.

Тази последователност от действия се повтаря, докато се намери решение, в което всички клъстери се състоят от статистически значим брой респонденти. След това можете да преминете към последния етап от клъстерния анализ - интерпретация на клъстери.

Специално трябва да се отбележи, че критерият за практическа и статистическа значимост на броя на клъстерите не е единственият критерий, по който може да се определи оптималният брой на клъстерите. Изследователят може самостоятелно, въз основа на своя опит, да предложи броя на клъстерите (условието за значимост трябва да бъде изпълнено). Друг вариант е доста често срещана ситуация, когато за изследователски цели предварително е поставено условие за сегментиране на респондентите според определен брой целеви групи. В този случай просто трябва да извършите веднъж йерархичен клъстерен анализ, поддържайки необходимия брой клъстери, и след това да се опитате да интерпретирате това, което получавате.

За да се опишат получените целеви сегменти, трябва да се използва процедурата за сравняване на средните стойности на изследваните променливи (клъстерни центроиди). Ние сравняваме средните стойности на седемте критерия за сегментиране, разглеждани във всеки от двата получени клъстера.

Процедурата за сравняване на средни стойности се извиква с помощта на менюто Analyze > Compare Means > Means. В диалоговия прозорец, който се отваря (фиг. 5.51), от левия списък изберете седемте променливи, избрани като критерии за сегментиране (ql3-ql9) и ги прехвърлете в полето за зависими променливи Списък на зависими. След това преместете променливата сШ2_1, отразяваща разделянето на респондентите на клъстери в крайното (двуклъстерно) решение на задачата, от левия списък в полето за независими променливи Independent List. След това щракнете върху бутона Опции.

Ориз. 5.51.

Ще се отвори диалоговият прозорец Опции, изберете необходимите статистики за сравняване на клъстери (фиг. 5.52). За да направите това, в полето Cell Statistics оставете само показването на средни стойности Mean, като премахнете други статистически данни по подразбиране от него. Затворете диалоговия прозорец Опции, като щракнете върху бутона Продължи. Накрая, от главния диалогов прозорец Средства, стартирайте процедурата за сравнение на средните стойности (бутон OK).

Ориз. 5.52.

Резултатите от статистическата процедура за сравняване на средни стойности ще се появят в прозореца на SPSS Viewer, който се отваря. Интересуваме се от таблицата Report (фиг. 5.53). От него можете да видите на каква основа SPSS раздели респондентите на два клъстера. В нашия случай такъв критерий е нивото на оценките по анализираните параметри. Клъстер 1 се състои от респонденти, за които средните резултати по всички критерии за сегментиране са на относително високо ниво (4,40 точки и повече). Клъстер 2 включва респонденти, които са оценили доста ниско разглежданите критерии за сегментиране (3,35 точки и по-ниско). Така можем да заключим, че 93,3% от респондентите, формиращи клъстер 1, оценяват анализираните авиокомпании като цяло добри във всички отношения; 5,4% е доста ниско; 1,3% са се затруднили да отговорят (виж фиг. 5.50). От фиг. 5.53, може също да се направи заключение какво ниво на оценки за всеки от разглежданите параметри поотделно е високо и какво е ниско (и това заключение ще бъде направено от респондентите, което позволява да се постигне висока точност на класификацията). От таблицата на отчета можете да видите, че за променливата Регулиране на опашката средната оценка от 4,40 се счита за висока, а за параметъра Външен вид е 4,72.


Ориз. 5.53.

Може да се окаже, че в подобен случай високата оценка за параметър X е 4,5, но само 3,9 за параметър Y. Това няма да е грешка в групирането, а напротив, ще ни позволи да направим важно заключение относно важността на разглежданите параметри за респондентите. Така за параметър Y вече 3,9 точки е добър резултат, докато респондентите имат по-строги изисквания за параметър X.

Ние идентифицирахме два значими клъстера, които се различават по нивото на средните резултати според критериите за сегментиране. Сега можете да присвоите етикети на получените клъстери: за 1 -- Авиокомпании, които отговарят на изискванията на респондентите (според седем анализирани критерия); за 2 -- Авиокомпании, които не отговарят на изискванията на респондентите. Сега можете да видите кои конкретни авиокомпании (кодирани в променлива q4) отговарят на изискванията на респондентите и кои не според критериите за сегментиране. За да направите това, е необходимо да се изгради напречно разпределение на променливата q4 (анализирани авиокомпании) в зависимост от променливата за клъстериране clu2_l. Резултатите от такъв анализ на напречното сечение са представени на фиг. 5.54.

От тази таблица могат да се направят следните заключения относно членството на изследваните авиокомпании в избраните целеви сегменти.


Ориз. 5.54.

1. Авиокомпании, които напълно отговарят на изискванията на всички клиенти по отношение на работата на наземния персонал (включени само в първия клъстер):

¦ Внуковски авиолинии;

¦ American Airlines;

¦ Delta Airlines;

¦ Austrian Airlines;

¦ British Airways;

¦ Корейски авиолинии;

¦ Japan Airlines.

2. Авиокомпании, които отговарят на изискванията на по-голямата част от своите клиенти по отношение на работата на наземния персонал (по-голямата част от респондентите, летящи с тези авиокомпании, са доволни от работата на наземния персонал):

¦ Трансаеро.

3. Авиокомпании, които не отговарят на изискванията на по-голямата част от своите клиенти по отношение на работата на наземния персонал (по-голямата част от респондентите, летящи с тези авиокомпании, не са доволни от работата на наземния персонал):

¦ авиокомпания Домодедово;

¦ Пулково;

¦ Сибир;

¦ Уралски авиолинии;

¦ Samara Airlines;

Така бяха получени три целеви сегмента на авиокомпаниите според нивото на средните оценки, характеризиращи се с различна степен на удовлетвореност на респондентите от работата на наземния персонал:

  • 1. най-привлекателните авиокомпании за пътниците по отношение на нивото на работа на наземния персонал (14);
  • 2. доста атрактивни авиокомпании (1);
  • 3. доста непривлекателни авиокомпании (7).

Успешно завършихме всички етапи на клъстерния анализ и сегментирахме авиокомпаниите според седем избрани критерия.

Сега даваме описание на техниката на клъстерен анализ, съчетана с факторен анализ. Използваме проблемното условие от раздел 5.2.1 (факторен анализ). Както вече беше споменато, при проблеми със сегментирането с голям брой променливи е препоръчително клъстерният анализ да се предхожда от факторен анализ. Това се прави, за да се намали броят на критериите за сегментиране до най-значимите. В нашия случай имаме 24 променливи в оригиналния файл с данни. В резултат на факторния анализ успяхме да намалим броя им до 5. Сега този брой фактори могат ефективно да се използват за клъстерен анализ, а самите фактори могат да се използват като критерии за сегментиране.

Ако сме изправени пред задачата да сегментираме респондентите според тяхната оценка на различни аспекти на текущата конкурентна позиция на авиокомпания X, можем да проведем йерархичен клъстерен анализ според избраните пет критерия (променливи nfacl_l-nfac5_l). В нашия случай променливите бяха оценени по различни скали. Например оценка 1 за твърдението Не бих искал авиокомпанията да се променя и същата оценка за твърдението Промени в авиокомпанията биха били нещо положително и са диаметрално противоположни по смисъл. В първия случай оценка 1 (категорично несъгласен) означава, че респондентът приветства промените в авиокомпанията; във втория случай оценка 1 показва, че респондентът отхвърля промени в авиокомпанията. Когато интерпретираме клъстери, неизбежно ще имаме затруднения, тъй като такива променливи с противоположни значения могат

попадат в същия фактор. По този начин, за целите на сегментирането, се препоръчва първо да се подравнят скалите на изследваните променливи и след това да се преизчисли факторният модел. След това извършете клъстерен анализ на факторните променливи, получени в резултат на факторния анализ. Няма отново да описваме подробно процедурите за факторен и клъстерен анализ (това беше направено по-горе в съответните раздели). Нека само да отбележим, че с тази методология получихме три целеви групи въздушни пътници, различаващи се по нивото на оценка на избраните фактори (т.е. групи от променливи): най-ниска, средна и най-висока.

Много полезно приложение на клъстерния анализ е разделянето на честотните таблици на групи. Да приемем, че имаме линейно разпределение на отговорите на въпроса: Какви марки антивирусни програми са инсталирани във вашата организация? За да се направят изводи въз основа на това разпространение, е необходимо антивирусните марки да бъдат разделени на няколко групи (обикновено 2-3). За да разделите всички марки на три групи (най-популярни марки, средна популярност и непопулярни марки), най-добре е да използвате клъстерен анализ, въпреки че по правило изследователите разделят елементите на честотните таблици на око, въз основа на субективни съображения. За разлика от този подход клъстерният анализ дава възможност за научно обосноваване на извършеното групиране. За да направите това, въведете стойностите на всеки параметър в SPSS (полезно е да изразите тези стойности като проценти) и след това извършете клъстерен анализ на тези данни. Като запазим клъстерното решение за необходимия брой групи (в нашия случай 3) като нова променлива, получаваме статистически валидно групиране.

Ще посветим последната част на този раздел на описание на използването на клъстерен анализ за класифициране на променливи и сравняване на неговите резултати с резултатите от факторния анализ, извършен в раздел 5.2.1. За да направим това, отново ще използваме условието на задачата за оценка на текущата позиция на авиокомпания X на пазара на въздушен транспорт. Методологията за провеждане на клъстерен анализ почти напълно повтаря описаната по-горе (когато респондентите са сегментирани).

И така, в оригиналния файл с данни имаме 24 променливи, описващи отношението на респондентите към различни аспекти на текущата конкурентна позиция на авиокомпания X. Отворете основния диалогов прозорец за йерархичен клъстерен анализ и поставете 24-те променливи (ql-q24) в променливата(ите). ) поле, фиг. 5.55. В областта Клъстер посочете, че класифицирате променливи (проверете опцията Променливи). Ще видите, че бутонът Запазване е деактивиран - за разлика от факторния анализ, при клъстерния анализ не можете да запазвате факторни оценки за всички респонденти. Избягвайте показването на диаграми, като деактивирате параметъра Графики. На първия етап нямате нужда от други параметри, така че просто щракнете върху бутона OK, за да стартирате процедурата за клъстерен анализ.

Таблицата График на агломерацията се появи в прозореца на SPSS Viewer, от който определихме оптималния брой клъстери, използвайки описания по-горе метод (фиг. 5.56). Първият скок в коефициента на агломерация се наблюдава на стъпка 20 (от 18834.000 до 21980.967). Въз основа на общия брой анализирани променливи, равен на 24, можем да изчислим оптималния брой клъстери: 24 - 20 = 4.

Ориз. 5.55.


Ориз. 5.56.

Когато се класифицират променливи, клъстер, състоящ се само от една променлива, е практически и статистически значим. Следователно, тъй като сме получили приемлив брой клъстери с помощта на математически метод, не са необходими допълнителни проверки. Вместо това отворете отново основния диалогов прозорец за анализ на клъстери (всички данни, използвани в предишната стъпка, се запазват) и щракнете върху бутона Статистика, за да се покаже класификационната таблица. Ще видите диалогов прозорец със същото име, където трябва да посочите броя на клъстерите, на които искате да разделите 24 променливи (фиг. 5.57). За да направите това, изберете опцията Единично решение и посочете необходимия брой клъстери в съответното поле: 4. Сега затворете диалоговия прозорец Статистика, като щракнете върху бутона Продължи и стартирайте процедурата от главния прозорец за анализ на клъстери.

В резултат на това таблицата Cluster Membership ще се появи в прозореца SPSS Viewer, разпределяйки анализираните променливи в четири клъстера (фиг. 5.58).

Ориз. 5.58.

Използвайки тази таблица, всяка разглеждана променлива може да бъде класифицирана в конкретен клъстер, както следва.

Клъстер 1

ql. Airline X има репутация за отлично обслужване на пътниците.

q2. Airline X може да се конкурира с най-добрите авиокомпании в света.

q3. Вярвам, че Airline X има обещаващо бъдеще в световната авиация.

q5. Горд съм, че работя за X Airline.

q9. Трябва да извървим дълъг път, преди да можем да твърдим, че сме авиокомпания от световна класа.

qlO. Airline X наистина се грижи за своите пътници.

ql3. Харесва ми начина, по който Airline X в момента се представя визуално на широката публика (по отношение на цветова схема и брандиране).

ql4. Airline X е лицето на Русия.

ql6. Услугата на Airline X е последователна и разпознаваема навсякъде

ql8. Авиокомпания X трябва да се промени, за да използва пълния си потенциал.

ql9. Мисля, че авиокомпания X трябва да се представи визуално по по-модерен начин.

q20. Промените в авиокомпания X ще бъдат положително развитие. q21. Airline X е ефективна авиокомпания.

q22. Бих искал да видя имиджа на авиокомпания X да се подобри от гледна точка на чуждестранните пътници.

q23. Airline X е по-добра, отколкото много хора си мислят, че е.

q24. Важно е хората по целия свят да знаят, че ние сме руска авиокомпания.

Клъстер 2

q4. Знам каква ще бъде стратегията за развитие на авиокомпания X в бъдеще.

q6. Airline X има добра комуникация между отделите.

q7. Всеки служител на авиокомпанията работи усилено, за да осигури нейния успех.

q8. Сега авиокомпания X се подобрява бързо.

qll. Съществува висока степен на удовлетворение от работата сред служителите на авиокомпанията.

ql2. Вярвам, че висшите мениджъри работят усилено, за да направят авиокомпанията успешна.

Клъстер 3

ql5. Изглеждаме като вчера в сравнение с други авиокомпании.

Клъстер 4

ql7. Не бих искал авиокомпания X да се променя.

Сравнявайки резултатите от факторния (раздел 5.2.1) и клъстерния анализ, ще видите, че те се различават значително. Клъстерният анализ не само предоставя значително по-малко възможности за групиране на променливи (например невъзможност за съхраняване на групови оценки) в сравнение с факторния анализ, но също така дава много по-неясни резултати. В нашия случай, ако клъстери 2, 3 и 4 все още се поддават на логическа интерпретация1, тогава клъстер 1 съдържа твърдения, които са напълно различни по значение. В тази ситуация можете или да опитате да опишете клъстер 1 такъв, какъвто е, или да изградите отново статистическия модел с различен брой клъстери. В последния случай, за да намерите оптималния брой клъстери, които могат да бъдат логически описани, можете да използвате параметъра Обхват на решенията в диалоговия прозорец Статистика (вижте Фиг. 5.57), като посочите минималния и максималния брой клъстери в съответните полета (в нашия случай съответно 4 и 6). В тази ситуация SPSS ще изгради отново таблицата за членство в клъстери за всеки брой клъстери. Задачата на анализатора в този случай е да се опита да избере класификационен модел, в който всички клъстери ще бъдат интерпретирани недвусмислено. За да демонстрираме възможностите на процедурата за клъстерен анализ за клъстерни променливи, няма да преустрояваме клъстерния модел, а ще се ограничим до казаното по-горе.

Трябва да се отбележи, че въпреки очевидната простота на клъстерния анализ в сравнение с факторния анализ, в почти всички случаи на маркетингово проучване факторният анализ се оказва по-бърз и по-ефективен от клъстерния анализ. Следователно, за да класифицираме (намалим) променливите, ние силно препоръчваме да използвате факторен анализ и да оставите използването на клъстерен анализ за класифициране на респондентите.

Класификационният анализ е може би един от най-сложните статистически инструменти от гледна точка на необучен потребител. Това се дължи на много слабото му разпространение в маркетинговите компании. В същото време тази конкретна група статистически методи е една от най-полезните за практиците в областта на маркетинговите проучвания.

Много от нас са чували фразата „клъстерен анализ“, но не всеки разбира какво означава. Освен това звучи повече от загадъчно! Всъщност това е само името на метод за разделяне на извадка от данни в категории елементи според определени критерии. Например, клъстерният анализ ви позволява да разделите хората на групи с високо, средно и ниско самочувствие. Просто казано, клъстерът е вид обекти, които са сходни по определен начин.

Клъстерен анализ: проблеми при използване

След като сте решили да използвате този метод във вашето изследване, трябва да запомните, че клъстерите, идентифицирани по време на изследването, може да са нестабилни. Следователно, както при факторния анализ, е необходимо да се проверят резултатите върху друга група обекти или след определен период от време да се изчисли грешката на измерването. Освен това, най-добре е да се използва клъстерен анализ върху големи проби, избрани чрез рандомизация или стратификация, защото това е единственият начин да се направи научно заключение, използвайки индукция. Той се показа най-добре в тестването на хипотези, вместо да ги създава от нулата.

Йерархичен клъстерен анализ

Ако трябва бързо да класифицирате произволни елементи, можете да започнете, като третирате всеки от тях първоначално като отделен клъстер. Това е същността на един от най-лесните за разбиране видове клъстерен анализ. Използвайки го, изследователят на втория етап формира двойки елементи, които са сходни по необходимия атрибут, и след това ги свързва заедно необходимия брой пъти. Клъстерите, разположени на минимално разстояние един от друг, се определят с помощта на интегративна процедура. Това се повтаря, докато не бъде изпълнен един от следните критерии:

  • получаване на предварително планиран брой клъстери;
  • всеки от клъстерите съдържа необходимия брой елементи;
  • Всяка група има необходимото съотношение на хетерогенност и хомогенност в нея.

За да се изчисли правилно разстоянието между клъстерите, често се използват следните техники:

  • единична и пълна връзка;
  • Средната връзка на Кинг;
  • центроиден метод;
  • приемане на групови средни стойности.

За оценка на резултатите от групирането се използват следните критерии:

  • индекс на яснота;
  • коефициент на разделяне;
  • обикновена, нормализирана и модифицирана ентропия;
  • втория и третия функционал на Рубенс.

Методи за клъстерен анализ

Най-често при анализ на извадка от обекти се използва методът на минималното разстояние. Състои се в комбиниране на елементи с коефициент на сходство, който е по-голям от прагова стойност в клъстер. При използване на метода на локалното разстояние се разграничават два клъстера: разстоянието между точките на първия от тях е максимално, а второто е минимално. Методът на центроида за групиране включва изчисляване на разстоянията между средните стойности на индикаторите в групи. А методът на Word е най-рационално използван за групиране на клъстери, които са сходни по отношение на изследвания параметър.

Клъстерен анализ

Повечето изследователи са склонни да вярват, че за първи път терминът „клъстерен анализ“ (на английски) клъстер- грозд, съсирек, грозд) е предложен от математика Р. Трион. Впоследствие се появиха редица термини, които понастоящем се считат за синоними на термина „клъстерен анализ“: автоматична класификация; ботриология.

Клъстерният анализ е многовариантна статистическа процедура, която събира данни, съдържащи информация за извадка от обекти и след това подрежда обектите в относително хомогенни групи (клъстери) (Q-клъстериране или Q-техника, самият клъстерен анализ). Клъстерът е група от елементи, характеризиращи се с общо свойство; основната цел на клъстерния анализ е да се намерят групи от подобни обекти в извадка. Обхватът на приложения на клъстерния анализ е много широк: той се използва в археологията, медицината, психологията, химията, биологията, публичната администрация, филологията, антропологията, маркетинга, социологията и други дисциплини. Въпреки това, универсалността на приложението доведе до появата на голям брой несъвместими термини, методи и подходи, което затруднява недвусмисленото използване и последователно тълкуване на клъстерния анализ. Орлов A.I. предлага да се разграничат, както следва:

Цели и условия

Клъстерният анализ извършва следното основни цели:

  • Разработване на типология или класификация.
  • Изследване на полезни концептуални схеми за групиране на обекти.
  • Генериране на хипотези въз основа на проучване на данни.
  • Тестване на хипотеза или изследване, за да се определи дали типовете (групите), идентифицирани по един или друг начин, действително присъстват в наличните данни.

Независимо от предмета на изследване, използването на клъстерен анализ включва следващи стъпки:

  • Избор на образец за групиране. Изводът е, че има смисъл да се групират само количествени данни.
  • Определяне на набора от променливи, по които ще се оценяват обектите в извадката, тоест пространството на характеристиките.
  • Изчисляване на стойностите на определена мярка за сходство (или разлика) между обекти.
  • Използване на метода за клъстерен анализ за създаване на групи от подобни обекти.
  • Проверка на надеждността на резултатите от клъстерното решение.

Клъстерният анализ представя следното изисквания към данните:

  1. индикаторите не трябва да корелират помежду си;
  2. индикаторите не трябва да противоречат на теорията за измерване;
  3. разпределението на показателите трябва да бъде близко до нормалното;
  4. индикаторите трябва да отговарят на изискването за „стабилност“, което означава липса на влияние върху техните стойности от случайни фактори;
  5. пробата трябва да бъде хомогенна и да не съдържа „извънредни стойности“.

Можете да намерите описание на две основни изисквания към данните - хомогенност и пълнота:

Хомогенността изисква всички обекти, представени в таблицата, да са от едно и също естество. Изискването за пълнота е наборите азИ Джпредстави пълен опис на проявите на разглеждания феномен. Ако разгледаме таблица, в която аз- съвкупността и Дж- набор от променливи, описващи тази популация, тя трябва да бъде представителна извадка от изследваната популация и системата от характеристики Джтрябва да даде задоволително векторно представяне на индивидите азот гледна точка на изследователя.

Ако клъстерният анализ е предшестван от факторен анализ, тогава извадката не се нуждае от „поправка“ - заявените изисквания се изпълняват автоматично от самата процедура на факторно моделиране (има още едно предимство - z-стандартизация без отрицателни последици за извадката; ако се извършва директно за клъстерен анализ, може да доведе до намаляване на яснотата на разделянето на групите). В противен случай пробата трябва да се коригира.

Типология на проблемите на клъстеризацията

Типове входове

В съвременната наука се използват няколко алгоритма за обработка на входните данни. Нарича се анализ чрез сравняване на обекти въз основа на характеристики (най-често срещани в биологичните науки). Q- вид анализ, а в случай на сравняване на характеристики, базирани на обекти - Р- вид анализ. Има опити за използване на хибридни видове анализ (напр. RQ-анализ), но тази методология все още не е добре разработена.

Цели на групирането

  • Разбиране на данни чрез идентифициране на клъстерна структура. Разделянето на извадката на групи от подобни обекти прави възможно опростяването на по-нататъшната обработка на данни и вземането на решения чрез прилагане на различен метод за анализ към всеки клъстер (стратегията „разделяй и владей“).
  • Компресиране на данни. Ако оригиналната извадка е прекалено голяма, тогава можете да я намалите, оставяйки по един най-типичен представител от всеки клъстер.
  • Откриване на новост откриване на новост). Идентифицират се нетипични обекти, които не могат да бъдат прикрепени към нито един от клъстерите.

В първия случай те се опитват да направят броя на клъстерите по-малък. Във втория случай е по-важно да се осигури висока степен на сходство на обектите във всеки клъстер и може да има произволен брой клъстери. В третия случай най-интересни са отделни обекти, които не се вписват в нито един от клъстерите.

Във всички тези случаи може да се използва йерархично клъстериране, когато големите клъстери се разделят на по-малки, които от своя страна се разделят на още по-малки и т.н. Такива проблеми се наричат ​​таксономични проблеми. Таксономията води до дървовидна йерархична структура. В този случай всеки обект се характеризира чрез изброяване на всички клъстери, към които принадлежи, обикновено от голям към малък.

Методи за групиране

Няма общоприета класификация на методите за групиране, но може да се отбележи солиден опит на В. С. Бериков и Г. С. Лбов. Ако обобщим различните класификации на методите за клъстериране, можем да различим няколко групи (някои методи могат да бъдат класифицирани в няколко групи наведнъж и затова се предлага тази типизация да се разглежда като някакво приближение към реалната класификация на методите за клъстериране):

  1. Вероятностен подход. Предполага се, че всеки разглеждан обект принадлежи към един от k класа. Някои автори (например А. И. Орлов) смятат, че тази група изобщо не е свързана с групирането и я противопоставят под името „дискриминация“, т.е. изборът на приписване на обекти на една от известните групи (проби за обучение).
  2. Подходи, базирани на системи с изкуствен интелект. Много условна група, тъй като има много AI методи и методологически те са много различни.
  3. Логичен подход. Дендрограмата се конструира с помощта на дърво на решенията.
  4. Теоретичен подход на графиките.
    • Алгоритми за групиране на графики
  5. Йерархичен подход. Предполага се наличието на вложени групи (групи от различен ред). Алгоритмите от своя страна се делят на агломеративни (обединяващи) и разделителни (разделящи). Въз основа на броя на характеристиките понякога се разграничават монотетични и политетични методи на класификация.
    • Йерархично разделение на групи или таксономия. Проблемите на групирането се разглеждат в количествена таксономия.
  6. Други методи. Не е включен в предишни групи.
    • Алгоритми за статистическо групиране
    • Ансамбъл от клъстеризатори
    • Алгоритми от семейството KRAB
    • Алгоритъм, базиран на метода на пресяване
    • DBSCAN и др.

Подходи 4 и 5 понякога се комбинират под името на структурен или геометричен подход, който има по-формализирана концепция за близост. Въпреки значителните разлики между изброените методи, всички те разчитат на оригиналния “ хипотеза за компактност": в пространството на обектите всички близки обекти трябва да принадлежат към един и същи клъстер и всички различни обекти, съответно, трябва да бъдат в различни клъстери.

Формална формулировка на проблема за групиране

Нека е набор от обекти и нека е набор от числа (имена, етикети) на клъстери. Посочена е функцията за разстояние между обектите. Има ограничена обучителна извадка от обекти. Изисква се извадката да се раздели на несвързани подмножества, наречени клъстери, така че всеки клъстер се състои от обекти, които са сходни по метрика, а обектите на различните клъстери са значително различни. В този случай на всеки обект се присвоява номер на клъстер.

Алгоритъм за групиранее функция, която присвоява номер на клъстер на всеки обект. В някои случаи наборът е известен предварително, но по-често задачата е да се определи оптималният брой клъстери, от гледна точка на един или друг критерии за качествогрупиране.

Групирането (неконтролирано обучение) се различава от класификацията (контролирано обучение) по това, че етикетите на оригиналните обекти не са първоначално посочени и самият набор може дори да е неизвестен.

Решението на проблема с клъстерирането е фундаментално двусмислено и има няколко причини за това (както смятат редица автори):

  • Няма ясен най-добър критерий за качество на групирането. Известни са редица евристични критерии, както и редица алгоритми, които нямат ясно дефиниран критерий, но извършват доста разумно групиране „по конструкция“. Всички те могат да дадат различни резултати. Следователно, за да се определи качеството на клъстерирането, е необходим експерт по домейн, който може да оцени значимостта на избора на клъстер.
  • броят на клъстерите обикновено е неизвестен предварително и се задава в съответствие с някакъв субективен критерий. Това е вярно само за методите за дискриминация, тъй като при методите за групиране клъстерите се идентифицират чрез формализиран подход, базиран на мерки за близост.
  • резултатът от групирането значително зависи от показателя, изборът на който по правило също е субективен и се определя от експерт. Но си струва да се отбележи, че има редица препоръки за избор на мерки за близост за различни задачи.

Приложение

По биология

В биологията клъстерирането има много приложения в голямо разнообразие от области. Например в биоинформатиката се използва за анализиране на сложни мрежи от взаимодействащи гени, понякога състоящи се от стотици или дори хиляди елементи. Клъстерният анализ дава възможност да се идентифицират подмрежи, тесни места, центрове и други скрити свойства на изследваната система, което в крайна сметка прави възможно да се открие приносът на всеки ген за формирането на изследваното явление.

В областта на екологията той се използва широко за идентифициране на пространствено хомогенни групи от организми, общности и т.н. По-рядко методите на клъстерен анализ се използват за изследване на общности във времето. Хетерогенността на структурата на общността води до появата на нетривиални методи за клъстерен анализ (например методът на Чекановски).

Като цяло, заслужава да се отбележи, че исторически мерките за сходство, а не мерките за разлика (разстояние) често се използват като мерки за близост в биологията.

В социологията

Когато се анализират резултатите от социологическите изследвания, се препоръчва да се извърши анализът, като се използват методите на йерархичното агломеративно семейство, а именно методът на Уорд, при който се оптимизира минималната дисперсия в клъстерите, като в крайна сметка се създават клъстери с приблизително еднакви размери. Методът на Уорд е най-подходящ за анализиране на социологически данни. По-добра мярка за разликата е квадратичното евклидово разстояние, което спомага за увеличаване на контраста на клъстерите. Основният резултат от йерархичния клъстерен анализ е дендрограма или „диаграма на висулка“. При интерпретацията му изследователите се сблъскват със същия вид проблем като интерпретацията на резултатите от факторния анализ - липсата на недвусмислени критерии за идентифициране на клъстери. Препоръчително е да се използват два основни метода - визуален анализ на дендрограмата и сравнение на резултатите от клъстеризацията, извършена по различни методи.

Визуалният анализ на дендрограмата включва „подрязване“ на дървото при оптимално ниво на сходство на елементите на пробата. Препоръчително е да се „отреже гроздовата клонка“ (терминологията на M. S. Oldenderfer и R. K. Blashfield) на ниво 5 от скалата на Rescaled Distance Cluster Combine, като по този начин ще се постигне 80% ниво на сходство. Ако идентифицирането на клъстери с помощта на този етикет е трудно (няколко малки клъстера се сливат в един голям), тогава можете да изберете друг етикет. Тази техника е предложена от Oldenderfer и Blashfield.

Сега възниква въпросът за устойчивостта на възприетото клъстерно решение. По същество проверката на стабилността на клъстерирането се свежда до проверка на неговата надеждност. Тук има основно правило - стабилната типология се запазва, когато методите за клъстериране се променят. Резултатите от йерархичния клъстерен анализ могат да бъдат проверени чрез итеративен клъстерен анализ, като се използва методът на k-средните стойности. Ако сравнените класификации на групи от респонденти имат процент на съвпадение над 70% (повече от 2/3 от съвпаденията), тогава се взема решение за клъстер.

Невъзможно е да се провери адекватността на дадено решение, без да се прибягва до друг вид анализ. Поне теоретично този проблем не е решен. Класическият документ на Oldenderfer и Blashfield, Cluster Analysis, обсъжда подробно и в крайна сметка отхвърля пет допълнителни метода за тестване на устойчивостта:

В компютърните науки

  • Групиране на резултати от търсене - използва се за „интелигентно“ групиране на резултати при търсене на файлове, уебсайтове и други обекти, предоставяйки на потребителя възможност за бърза навигация, избор на очевидно по-подходящо подмножество и изключване на очевидно по-малко подходящо - което може увеличаване на използваемостта на интерфейса в сравнение с изхода под формата на прост списък, сортиран по уместност.
    • Clusty е търсачка за клъстери от Vivísimo
    • Nigma - руска търсачка с автоматично групиране на резултатите
    • Quintura - визуално групиране под формата на облак от ключови думи
  • Сегментиране на изображението сегментиране на изображението) - Групирането може да се използва за разделяне на цифрово изображение на отделни области с цел откриване на ръбове. откриване на ръбове) или разпознаване на обекти.
  • Извличане на данни извличане на данни)- Клъстерирането в Data Mining става ценно, когато действа като един от етапите на анализ на данни и изграждане на цялостно аналитично решение. Често за анализатора е по-лесно да идентифицира групи от подобни обекти, да проучи техните характеристики и да изгради отделен модел за всяка група, отколкото да създаде един общ модел за всички данни. Тази техника се използва постоянно в маркетинга, идентифицирайки групи клиенти, купувачи, продукти и разработвайки отделна стратегия за всеки от тях.

Вижте също

Бележки

Връзки

На руски
  • www.MachineLearning.ru - професионален wiki ресурс, посветен на машинното обучение и извличането на данни
На английски
  • COMPACT - Сравнителен пакет за оценка на групиране. Безплатен пакет Matlab, 2006 г.
  • П. Берхин, Проучване на техниките за извличане на данни в клъстери, Софтуер за натрупване, 2002 г.
  • Джейн, Мърти и Флин: Групиране на данни: преглед, ACM Comp. Surv., 1999.
  • за друго представяне на йерархични, k-средни и размити c-средни вижте това въведение в клъстерирането. Също така има обяснение за смесване на гаусиани.
  • Дейвид Доу, Страница за моделиране на смеси- други връзки към модели на клъстери и смесване.
  • урок за групиране
  • Онлайн учебникът: Теория на информацията, изводи и алгоритми за обучение, от Дейвид Дж. MacKay включва глави за групиране на k-средни стойности, групиране на меки k-средни стойности и изводи, включително алгоритъма E-M и вариационния изглед на алгоритъма E-M.
  • „Самоорганизираният ген“, урок, обясняващ групирането чрез конкурентно обучение и самоорганизиращи се карти.
  • kernlab - R пакет за базирано на ядрото машинно обучение (включва реализация на спектрално клъстериране)
  • Урок - Урок с въвеждане на алгоритми за клъстериране (k-средни, размити-c-средни, йерархични, смес от гаусиани) + някои интерактивни демонстрации (java аплети)
  • Софтуер за извличане на данни - Софтуерът за извличане на данни често използва техники за групиране.
  • Java Competitive Learning Application Комплект от неконтролирани невронни мрежи за групиране. Написано на Java. Пълен с целия изходен код.
  • Софтуер за машинно обучение - също така съдържа много софтуер за клъстериране.