Post

Visualizzazione dei post da febbraio, 2021

Head-to-head comparison of clustering methods for heterogeneous data: a simulation-driven benchmark - Nature

The choice of the most appropriate unsupervised machine-learning method for “heterogeneous” or “mixed” data, i.e. with both continuous and categorical variables, can be challenging. Our aim was to examine the performance of various clustering strategies for mixed data using both simulated and real-life data. We conducted a benchmark analysis of “ready-to-use” tools in R comparing 4 model-based (Kamila algorithm, Latent Class Analysis, Latent Class Model [LCM] and Clustering by Mixture Modeling) and 5 distance/dissimilarity-based (Gower distance or Unsupervised Extra Trees dissimilarity followed by hierarchical clustering or Partitioning Around Medoids, K-prototypes) clustering methods. Clustering performances were assessed by Adjusted Rand Index (ARI) on 1000 generated virtual populations consisting of mixed variables using 7 scenarios with varying population sizes, number of clusters, number of continuous and categorical variables, proportions of relevant (non-noisy) variables and deg

Making the business case for a chief data officer - MIT

"Organizations that allocate the right resources, influence, and authority to the CDO are four times more likely to be successful using data to transform the business, according to Laney’s research. By comparison, organizations turning to the CIO to oversee data management and strategy are only half as likely to see business impact from advanced analytics initiatives." Here's why:  https://mitsloan.mit.edu/ideas-made-to-matter/making-business-case-a-chief-data-officer

Una breve introduzione alle tecniche di Data Mining - CNR, IRCrES

Il presente testo ha come obiettivo principale quello di rispondere a una domanda che spesso studenti e ricercatori si trovano ad affrontare: cosa faccio con tutti questi dati? Le tecniche di data mining offrono una risposta a questo quesito soprattutto perché la maggioranza dei software statistici disponibili al giorno d’oggi incorporano delle routine che rendono l’applicazione di questi modelli molto semplice.  La breve guida proposta si rivolge a studenti che non hanno confidenza con l’analisi dei dati e che necessitano di farsi un’idea di cosa possono dire i database e soprattutto di quali sono gli strumenti più idonei per rispondere alle domande di ricerca. Il testo si compone di diversi paragrafi che attraverso definizioni ed esempi mostreranno al lettore come estrarre informazioni dai database in modo semplice e scoprire pertanto alcuni meccanismi che vengono utilizzati nel mondo della ricerca, ma non solo, per comprendere al meglio il comportamento degli attori delle realt