Какво представлява извличането на данни? Основи и техники.

Съдържание:

Какво представлява извличането на данни? Основи и техники.
Какво представлява извличането на данни? Основи и техники.

Видео: Какво представлява извличането на данни? Основи и техники.

Видео: Какво представлява извличането на данни? Основи и техники.
Видео: Prolific USB Windows 8.1 and Windows 10 driver issue resolved - Robojax - YouTube 2024, Ноември
Anonim

Основата на четвъртата индустриална революция до голяма степен зависи от това Данни и Свързаност. Анализ Услуги способни да разработват или създават решения за извличане на данни, ще играят ключова роля в това отношение. Той би могъл да подпомогне анализа и прогнозирането на резултатите от поведението на клиентите при покупка, насочени към потенциалните купувачи. Данните ще станат нов природен ресурс и процесът на извличане на съответната информация от тези несортирани данни ще придобие огромно значение. Като такова, правилното разбиране на термина - Извличане на данни, нейните процеси и приложението биха могли да ни помогнат да разработим цялостен подход към тази дума.

Основи на извличането на данни и техниките

Image
Image

Извличането на данни, известно още като Откриване на знания в данните (KDD) е за търсене на големи хранилища с данни, за да откриете модели и тенденции, които надхвърлят простия анализ. Това обаче не е едноетапно решение, а процес с няколко стъпки и завършено на различни етапи. Те включват:

1] Събиране и подготовка на данни

Започва с събирането на данни и правилната им организация. Това помага за значително подобряване на шансовете за намиране на информация, която може да бъде открита чрез извличане на данни

2] Изграждане и оценка на модели

Втората стъпка в процеса на извличане на данни е прилагането на различни техники за моделиране. Те се използват за калибриране на параметрите до оптимални стойности. Използваните техники до голяма степен зависят от аналитичните способности, необходими за справяне с редица организационни потребности и за постигане на решение.

Нека разгледаме накратко някои техники за извличане на данни. Установено е, че повечето организации съчетават две или повече техники за извличане на данни заедно, за да формират подходящ процес, който отговаря на техните бизнес изисквания.

Прочети: Какво представляват големите данни?

Техники за извличане на данни

  1. Асоциация - Асоциацията е една от широко известните техники за извличане на данни. При това моделът се дешифрира въз основа на връзката между елементите в същата транзакция. Следователно, тя е известна и като техника на отношенията. Големи търговци на дребно на марката разчитат на тази техника за проучване на потребителските навици / предпочитания при пазаруване. Например, при проследяване на потребителските навици на купувачите търговците могат да установят, че клиентът винаги купува крем, когато купува шоколадови бонбони, и следователно предполагат, че следващия път, когато купуват шоколади, те също биха искали да купят сметана.
  2. класификация - Тази техника за извличане на данни се различава от горното по начин, който се основава на машинно обучение и използва математически техники като Линейно програмиране, Решаване на дърветата, Невронна мрежа. При класифицирането компаниите се опитват да създадат софтуер, който може да се научи как да класифицира елементите от данни в групи. Например, една компания може да определи класификация в заявлението, че "предвид всички записи на служители, които предложиха да се оттеглят от компанията, да предскажат броя на лицата, които вероятно ще се оттеглят от компанията в бъдеще." При този сценарий компанията може да класифицира записите на служителите в две групи, а именно "отпуск" и "престой". След това може да използва софтуера за извличане на данни, за да класифицира служителите в отделни групи, създадени по-рано.
  3. Групирането - Различните обекти, които имат подобни характеристики, се групират заедно в един клъстер чрез автоматизация. Много такива клъстери се създават като класове и обектите (със сходни характеристики) се поставят в него. За да разберем това по-добре, нека разгледаме пример за управление на книги в библиотеката. В библиотеката огромната колекция от книги е напълно каталогизирана. Елементите от един и същ тип са изброени заедно. Това ни улеснява да намерим книга от нашия интерес. По подобен начин, използвайки техниката на клъстеризиране, можем да запазим книги, които имат някакви сходства в един клъстер, и да му придадем подходящо име. Така че, ако читателят се опитва да вземе книга, свързана с неговия интерес, той трябва само да отиде на този рафт, вместо да търси цялата библиотека. По този начин техниката на клъстеризиране определя класовете и поставя предметите във всеки клас, докато в класификационните техники обектите се разпределят в предварително определени класове.
  4. предвиждане - Предсказването е техника за извличане на данни, която често се използва в комбинация с другите техники за извличане на данни. Тя включва анализ на тенденциите, класификацията, съвпадането на моделите и връзката. Чрез анализиране на минали събития или случаи в правилна последователност може безопасно да се предвиди бъдещо събитие. Например, техниката за анализ на прогнозите може да бъде използвана при продажбата, за да се предскаже бъдеща печалба, ако продажбата бъде избрана като независима променлива и печалбата като променлива зависи от продажбата. След това, въз основа на данните за историческата продажба и печалбата, може да се изготви монтирана регресионна крива, която се използва за прогнозиране на печалбата.
  5. Решението дървета - В рамките на дървото за решения започваме с прост въпрос, който има няколко отговора. Всеки отговор води до още един въпрос, който помага да се класифицират или идентифицират данните, така че да могат да бъдат категоризирани или да се направи прогноза въз основа на всеки отговор. Например, използваме следното дърво за вземане на решение, за да определим дали да играем крикет ODI: Дървото за вземане на данни: От началото на коренния възел, ако прогнозата за времето прогнозира дъжд, трябва да избягваме мача за деня. Като алтернатива, ако прогнозата за времето е ясна, трябва да играем мача.

Извличането на данни е в центъра на усилията за анализ в различни индустрии и дисциплини като комуникации, застраховане, образование, производство, банкиране и търговия на дребно и др. Следователно, имайки правилна информация за него е от съществено значение преди да приложите различните техники.

Препоръчано: