Data Mining: cos'è, a cosa serve, gli esempi di applicazione
Pubblicato: 23 Luglio 2020  -  Ultimo aggiornamento: 2 Settembre 2020

Data Mining: cos’è, a cosa serve, gli esempi di applicazione

Il data mining (in italiano, estrazione di dati) può essere definito come l’insieme di alcune tecniche e metodologie della Data Science il cui obiettivo è estrarre informazioni utili da grandi moli di dati attraverso algoritmi ed avanzate tecnologie, sempre più spesso basate su reti neurali artificiali, machine learning e tecniche di intelligenza artificiale.

Tecnicamente dunque il data mining si riferisce alle attività che consentono di estrarre informazioni dai dati, ossia tutto ciò che riguarda la loro esplorazione ed analisi.

Cos’è il data mining e perché è “accessibile a tutti”

Volendo dare una definizione più precisa per capire cos’è il data mining, potremmo dire che è il metodo di esplorazione ed analisi di grandi moli di dati (attraverso sistemi automatici o semi-automatici, tra i quali anche il machine learning) per capire e identificare modelli (pattern, correlazioni, strutture di dati, ecc.) che possono essere utili per una precisa attività o processo.

Il data mining sta quindi alla base di tutte le piattaforme più evolute di Big Data Analytics, è l’elemento tecnico che consente di scoprire schemi, strutture e correlazioni tra dati sulle quali fare poi le analisi che servono al processo decisionale o ad una determinata attività.

Il data mining è esso stesso un procedimento di analisi, ma dal punto di vista tecnico copre anche altri aspetti molto importanti nell’ambito del processamento dei dati quali configurazione, modellazione, data collection, data visualization… che contribuiscono all’obiettivo finale: scavare nei dati ed estrarre informazioni utili non visibili e non conosciute a priori che possono generare nuova conoscenza utile nel processo decisionale ed operativo di business.

A voler essere ancora più precisi, oggi il data mining ha una duplice valenza:

  • estrazione, con tecniche analitiche all’avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
  • esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern (schemi o strutture) significativi.

I pattern sono, di fatto, il risultato dell’estrazione dei dati e sono gli elementi da cui è possibile ricavare/leggere/interpretare le informazioni. Affinché possa generare tale valore, ossia fornire informazioni utili, i pattern devono essere:

  • comprensibili (sia sotto il profilo semantico sia dal punto di vista sintattico), affinché possano essere opportunamente interpretati e sfruttati;
  • validi, nell’accezione della qualità e del grado di confidenza dei dati;
  • precedentemente sconosciuti, ossia devono rivelare informazioni non note prima (altrimenti non producono alcun valore).

Il concetto di data mining è nato negli anni ’90 del secolo scorso grazie ad alcune tendenze che hanno poi contribuito anche alla sua accelerazione in termini di adozione:

  • la disponibilità di grandi quantità di dati digitali (strutturati ma anche e soprattutto non strutturati);
  • l’accesso a grande capacità di calcolo (server, cpu, gpu) e data storage sempre più performanti accessibili a costi contenuti (anche grazie al cloud computing);
  • nuovi e più elevati livelli di maturità delle tecniche (e delle tecnologie) di analisi dei dati, con l’accesso più semplificato a machine learning, reti neurali artificiali e tecniche di intelligenza artificiale.

A cosa serve: modelli di data mining e tipi di pattern

I modelli di data mining sono stanzialmente due (che hanno una certa similitudine con le differenti tipologie di analisi) e solitamente la scelta su quale utilizzare dipende da tipo di dati che si hanno a disposizione e si intende analizzare e dal tipo di pattern che si vuole ottenere:

  • modello descrittivo: sfruttando capacità di analisi di tipo descrittivo, il modello consente di raggruppare dati storici che, per esempio, mostrano gruppi di utenti che hanno avuto un medesimo comportamento (da cui poi l’utente può provare a capire – attraverso l’analisi dei “dati comuni” a questo gruppo di utenti – come mai si è verificato tale comportamento);
  • modello predittivo: in questo caso il modello raggruppa i dati affinché si possano stimare/prevedere scenari o risultati futuri. La modellazione predittiva, per esempio, viene utilizzata nella cosiddetta Churn Analysis per aiutare le aziende a non perdere i clienti prevedendo il loro comportamento di acquisto e le probabilità di abbandono.

A seconda del tipo di informazioni che si vuole ottenere, il data mining può “produrre” differenti tipi di pattern (in altre parole, i tipi di pattern denotano cosa fa il data mining):

  • associazione: in questo caso il data mining consente di identificare quali regole associative sono presenti in una base dati, ossia in che modo è possibile raggruppare i dati per “affinità” e quali sono i loro nessi casuali;
  • classificazione: i classificatori consentono diderivare un modello di ordinamento e di raggruppare i dati per classi (sulla base di determinate regole) assegnate a priori;
  • clustering (clasterrizzazione, raggruppamento, segmentazione): in questo caso, a differenza della classificazione, il data mining raggruppa i dati in classi non assegnate a priori (è il sistema stesso che identifica gruppi omogenei basati su regole “nascoste” che emergono solo a seguito dell’analisi);
  • regressione: il data mining di regressione opera in modo simile ai classificatori, con la differenza che questi ultimi sfruttando regole di appartenenza ad una classe come variabili categoriche e predeterminate, mentre nella regressione le variabili (quindi le regole di appartenenza) possono assumere molti valori (potenzialmente anche infiniti);
  • sequenze: l’individuazione delle sequenze è un tipo di pattern simile all’associazione ma sfrutta la cosiddetta correlazione sequenziale, ossia identifica quei gruppi di dati che mostrano quando ad un dato X fa seguito un dato Y (per esempio una richiesta di assistenza dopo un certo arco temporale dall’acquisto di uno specifico prodotto);
  • serie temporali: questi tipi di data mining sono molto complessi perché non solo svolgono sofisticate regressioni ma anche perché inglobano variabili a loro volta complesse; si tratta di analisi che permettono l’individuazione di pattern ricorrenti oppure aticipi in sequenze molto complesse, utili quindi a fare analisi predittive.

Alcuni esempi di applicazione

Oggi il data mining viene utilizzato in moltissimi settori e business unit, dal mercato Finance fino al Manifacturing, dal Marketing alla gestione documentale… per esempio per trovare gruppi e sottogruppi di documenti simili per tipologia oppure per termini che compaiono in essi (utile per chi deve accedere a grandi molti di documenti, come per esempio per la ricerca scientifica, oppure per il settore Legal), oppure per raggruppare i clienti per specifiche caratteristiche comuni o per area geografica (utile per organizzare i servizi di manutenzione oppure per definire nuove strategie di marketing e di vendita), o ancora intuire come disporre la merce (o proporla sul proprio canale e-commerce) per stimolare gli acquisti analizzando quali prodotti vengono frequentemente comprati insieme… gli esempi applicativi possono davvero essere infiniti.

Churn Analysis
La churn analysis, ossia l’analisi delle probabilità di perdita di un cliente, rientra nel tipo di analisi con modelli predittivi tipici del data mining

Entrando un po’ più in dettaglio, come già accennato, uno degli esempi più attuali di utilizzo di data mining e analisi predittive è la cosiddetta churn analysis, ossia l’analisi delle probabilità di perdita di un cliente: il data mining identifica le caratteristiche “tipiche” di un cliente che ha alte probabilità di abbandono, le analisi predittive più evolute poi faranno il resto (per esempio modellare scenari futuri e capire come prevenire l’abbandono o capire in anticipo come il cliente reagirà di fronte ad una nuova offerta o ad un servizio sviluppato proprio per evitare di perdere il cliente).

Un altro interessante utilizzo delle tecniche di data mining riguarda l’identificazione – e la prevenzione – delle frodi (fraud detection). In questo caso il data mining analizza le transazioni (per esempio i prelievi di contante ad uno sportello Bancomat oppure gli acquisti online con carta di credito) e identifica caratteristiche e gruppi di transazioni corrette e transazioni invece classificate come fraudolente (per esempio perché estranee ad un comportamento “tipico” dell’utente oppure perché verificatesi in sequenza ad altri eventi rilevanti).

Altro efficace utilizzo del data mining riguarda la Market Basket Analysis con l’obiettivo di suggerire agli utenti ciò che potrebbe soddisfare le proprie esigenze e aspettative od essere di loro gradimento, in base a comportamenti passati o all’appartenenza ad un gruppo di profilazione specifico.

Tag: