Post

Visualizzazione dei post con l'etichetta data analysis

Cos'è jupiter e quali sono le somiglianze e le differenze con kaggle?

Jupyter e Kaggle sono due strumenti importanti per chi lavora con la programmazione, l'analisi dei dati e il machine learning, ma hanno scopi e caratteristiche differenti: Jupyter Notebook Jupyter è un ambiente open-source che permette di creare e condividere documenti interattivi chiamati notebook , usati per scrivere e eseguire codice, documentare progetti e visualizzare i risultati (grafici, tabelle, ecc.). È molto flessibile, supporta diversi linguaggi (Python, R, Julia) e viene installato in locale o su server (usando JupyterLab per progetti più complessi). Sito:  https://jupyter.org/ Kaggle Kaggle è una piattaforma online per competizioni di data science, con un ambiente integrato di notebook e dataset. Permette agli utenti di scrivere codice, partecipare a competizioni di machine learning, accedere a dataset pubblici e collaborare con altri data scientist. A differenza di Jupyter, Kaggle fornisce accesso diretto a risorse di calcolo, come GPU e TPU, senza configura...

Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente

Quando si entra nel fantastico mondo dell'analisi dei dati il primo ingrediente che serve sono... i dati. E le raccolte di dati diventano fondamentali anche in seguito quando, ad esempio, si vuole addestrare un modello di machine learning. In questa pagina annoto i siti dai quali è possibile scaricare gratuitamente e legalmente dataset curati di dati. Chiunque può contribuire segnalandone di nuovi nei commenti Meta Datasets . La pagina dei Datasets di Meta AI offre un'incredibile raccolta di dataset su larga scala e benchmark per l'addestramento, il test e la valutazione dei modelli di intelligenza artificiale. I dataset coprono vari ambiti come la segmentazione degli oggetti, modelli visione-linguaggio, ricostruzione 3D, equità algoritmica e traduzione automatica. Esempi includono il dataset SA-V per la segmentazione, FACET per valutare l'equità nei modelli visivi e Ego4D per la comprensione di video in prima persona. Tutti i dataset possono essere scaricati gratuita...

How to Get JSON Output from LLMs: A Practical Guide

JSON mode allows you to get structured data directly from your LLMs, making them more useful for practical applications. While frameworks like Llama.cpp offer straightforward implementations, you might encounter issues with cloud services like Gemini API. Hopefully, this blog allowed you to get a better practical understanding on how JSON mode works and how you can use it even when using Gemini’s API which only has partial support so far. Now that I was able to get Gemini to somewhat work with JSON mode, I can complete the implementation of my LLM workflow where having data structured in a specific way is necessary. Read more:  https://towardsdatascience.com/how-to-get-json-output-from-llms-a-practical-guide-838234ba3bab

How much statistics is enough to do data science? - Knime blog

Some people say, “The data speaks for itself.”  But the data never speaks. And it needs interpreters.  Data science and statistics go hand in hand. In data science, we collect, analyze, and visualize data. Statistics give us a lens on our data to spot patterns, trends, and connections. Statistics help us see when our analysis is off and ensure our analysis isn’t just based on intuition but grounded in fact.  Statistical thinking can help you decide whether ideas, commonly believed to be sound and intuitive, are perhaps not as rational as initially perceived. While the outcome of an analysis might seem straightforward on the surface, statistical analysis allows us to delve deeper. Leggi tutto:  https://www.knime.com/blog/statistics-for-data-science

ADIDAS Sales Analysis - Prayag Padwal su Medium

Articolo molto utile per capire cos'è, come si fa e a cosa può servire l'analisi dei dati. Partendo dal dataset delle vendite dell'Adidas (scaricabile gratuitamente da kaggle) l'autore ci guida passo passo nella fase di pulizia, trasformazione, analisi e rappresentazione dei risultati. Un buon esercizio potrebbe essere quello di ripetere l'analisi usando strumenti diversi da quelli impiegati (Python + Tableau), ad esempio Knime o Knime + Power BI. In the fiercely competitive world of sports apparel, understanding market trends, consumer preferences, and sales dynamics is crucial for staying ahead. Adidas, a global leader in this industry, is no stranger to these challenges. In this in-depth analysis, we dive into a comprehensive dataset to uncover the hidden patterns and strategies behind Adidas’ sales triumphs. Our exploration reveals fascinating insights into several key aspects: from sales performance and product popularity to regional market variations and effic...

Scapegoating Analysts | Recognizing & Preventing A Bad Idea - Avinash Kaushik

Ideally, you live in a culture where good analysis identifying poor performance would be warmly welcomed as an opportunity to learn, an opportunity to change, and, for the bravest cultures, an opportunity to change leadership posture (or leaders). What's often a lot more common is to take the easy way out by sowing doubt, undertaking "rationalizations," and/or blaming data (not the performance!). Let me be emphatic: Scapegoating Data/Analysts is counter-productive. It is a heartbreaking reflection of culture and leadership. In my, more years than I care to admit, career scapegoating Data/Analysts is a feature of the company’s culture, not a bug. Read more:  https://www.kaushik.net/avinash/scapegoating-analysts-recognizing-preventing-a-bad-idea/

Formato delle date e ore in una serie storica

Uno degli aspetti più interessanti della data analytics è che salta sempre fuori qualcosa di nuovo da imparare. L'ultima scoperta (scrivo sempre da "novizio" della materia, non dimenticarlo per favore) è che anche le date (giorni, settimane, mesi e trimestri) hanno un loro standard. Il problema mi si è posto quando ho iniziato a scrivere le specifiche di aggregazione di alcuni dati che, da puntuali (sono raccolti ad ogni transazione, anche più volte al minuto), devono essere aggregati a livello giornaliero, settimanale ecc. per successive analisi: esiste un modo "più corretto" di indicare la data di un giorno? giornomeseanno ,  annomesegiorno ? o mesegiornoanno ? una settimana come si indica? e, ancora prima, come si calcola il numero della settimana in un anno? e il giorno della settimana? "lunedì" per i colleghi italiani ha chiaramente un senso (è il giorno più deprimente della settimana), ma per un collega indiano? Cercando una risposta a queste do...

L'Europa è a caccia di intelligenza artificiale per far evolvere le previsioni meteo - Wired

L'utilizzo dell'intelligenza artificiale nelle previsioni meteo non è una novità. Ibm, che nel 2016 ha acquistato per due miliardi di dollari The Weather Company, una delle più importanti società del settore, e l'ha piazzata sotto l'ombrello della sua Ai, Watson, ricorda che si fa ricorso agli algoritmi dal 1970. Tuttavia, ricordano dall'Ecmwf, il Centro europeo per le previsioni meteo di medio termine (che pure lavora sul tema dal 2018), grandi passi in avanti sono stati compiuti tra febbraio 2022 e aprile 2023, con una serie di ricerca sull'accuratezza delle previsioni meteo da parte di sistemi di machine learning da parte di Huawei, Nvidia e Google Deepmind. D'altronde, quello delle previsioni meteorologiche è un settore che per Expert market research, un centro studi di mercato, nel 2027 arriverà a valere 3,85 miliardi di dollari (con un tasso di crescita annua dal 2022 del 5,6%). Leggi tutto:  https://www.wired.it/article/meteo-previsioni-intelligenza-...

Why Data Scientists Should Be Excited About Python in Excel - Anaconda

Data scientists and business users quite often exchange spreadsheets as a form of collaboration. Right now, this is an awkward process; while there are a variety of libraries that allow Python to read from and write to spreadsheets, these tools are complicated to use, especially on the business stakeholder side of the exchange. In practice, data scientists have to do a bunch of manual work to update spreadsheets and make collaboration possible. While no tool can magically resolve human communication problems, Python in Excel will create a common working platform for data scientists and spreadsheet users, dramatically streamlining the collaboration process. When tools like Slack, Git, or Asana are used well, they create a sense of seamless coworking on a common problem. Python in Excel has the potential to deliver a similar experience, finally allowing us to move beyond the throw-it-over-the-wall mentality that is common right now. Data scientists still need to stop by the desks of ...

Announcing Python in Excel: Next-Level Data Analysis for All - Anaconda

Today, Anaconda and Microsoft announced a groundbreaking innovation: Python in Excel. This marks a transformation in how Excel users and Python practitioners approach their work. For Excel users, this opens a new world of data analysis potential previously limited to data scientists and developers. Within your familiar spreadsheet environment, you can now harness Python’s power to perform complex statistical analyses with popular packages such as pandas and statsmodels and create sophisticated visualizations using Matplotlib and Seaborn. Python practitioners can now marry scripts and rich visualizations with the widespread accessibility of Excel, enabling an uninterrupted workflow and making your work easier to share with colleagues who primarily use Excel. The integration of the Anaconda Distribution for Python in Microsoft Excel is more than a feature; it’s a redefinition of what’s possible within data analytics. It combines Python’s advanced capabilities with Excel’s familiar in...

Excel gets containerized, cloud-based Python analytics and visualization powers - arstechnica

Microsoft partnered with Python analytics repository Anaconda to bring libraries like Pandas, Statsmodels, and Matplotlib into Excel. Python in Excel runs on Microsoft’s cloud servers, and the company is touting the security that should offer. Python runs in isolated containers, with no access to devices, your network, or user tokens, Microsoft states. Python and Excel can only really talk to each other through limited functions—xl() and =PY()—that can only return code results, not macros, VBA code, or other data, Microsoft claims. Read more:  https://arstechnica.com/information-technology/2023/08/you-can-now-wield-python-analytics-inside-excel-but-microsoft-says-its-safe/

Come passare da Excel a Knime - tutorial

Immagine
Utile tutorial che illustra come replicare su Knime le operazioni di analisi dei dati che siamo soliti effettuare su Excel. Il video è accompagnato da un ebook che può essere scaricato qui: "From Excel to Knime"

How to Start Using the Python Script Node in Production Environments - Knime blog

With the KNIME Analytics Platform 4.7 release, the new Python Script node has been moved out of Labs and made part of the production-ready KNIME Python Integration.This feature comes with a bundled environment so you can dive into Python scripting without the need to worry about any Python settings. Read this blog article that explains how you can use the Python script node based on several example workflows from the KNIME Hub. https://www.knime.com/blog/python-script-node-bundled-packages

Dati sintetici: cosa sono, come vengono creati, a cosa servono - EconomyUp

I dati sintetici abilitano nuovi impieghi dell’Intelligenza Artificiale e ne migliorano le performance. Sono essenziali quando l’accesso ai dati reali è problematico per ragioni di privacy, di costo o di qualità. Qui dettagli ed esempi Leggi tutto:  https://www.economyup.it/innovazione/dati-sintetici-cosa-sono-come-vengono-creati-e-a-cosa-servono/

Facebook Insight: dati e statistiche della pagina social - DigIT Export

Le statistiche di Facebook Insights raccontano le abitudini, gli interessi e i gusti dei follower che seguono la pagina social di un brand o di un’azienda allo scopo di creare una comunicazione sempre più personalizzata e fidelizzante, cucita come un vestito su misura sulle varie categorie di consumatori. https://digitexport.it/affermarsi/facebook-insight-dati-e-statistiche-della-pagina-social.kl#/

Head-to-head comparison of clustering methods for heterogeneous data: a simulation-driven benchmark - Nature

The choice of the most appropriate unsupervised machine-learning method for “heterogeneous” or “mixed” data, i.e. with both continuous and categorical variables, can be challenging. Our aim was to examine the performance of various clustering strategies for mixed data using both simulated and real-life data. We conducted a benchmark analysis of “ready-to-use” tools in R comparing 4 model-based (Kamila algorithm, Latent Class Analysis, Latent Class Model [LCM] and Clustering by Mixture Modeling) and 5 distance/dissimilarity-based (Gower distance or Unsupervised Extra Trees dissimilarity followed by hierarchical clustering or Partitioning Around Medoids, K-prototypes) clustering methods. Clustering performances were assessed by Adjusted Rand Index (ARI) on 1000 generated virtual populations consisting of mixed variables using 7 scenarios with varying population sizes, number of clusters, number of continuous and categorical variables, proportions of relevant (non-noisy) variables and deg...

Una breve introduzione alle tecniche di Data Mining - CNR, IRCrES

Il presente testo ha come obiettivo principale quello di rispondere a una domanda che spesso studenti e ricercatori si trovano ad affrontare: cosa faccio con tutti questi dati? Le tecniche di data mining offrono una risposta a questo quesito soprattutto perché la maggioranza dei software statistici disponibili al giorno d’oggi incorporano delle routine che rendono l’applicazione di questi modelli molto semplice.  La breve guida proposta si rivolge a studenti che non hanno confidenza con l’analisi dei dati e che necessitano di farsi un’idea di cosa possono dire i database e soprattutto di quali sono gli strumenti più idonei per rispondere alle domande di ricerca. Il testo si compone di diversi paragrafi che attraverso definizioni ed esempi mostreranno al lettore come estrarre informazioni dai database in modo semplice e scoprire pertanto alcuni meccanismi che vengono utilizzati nel mondo della ricerca, ma non solo, per comprendere al meglio il comportamento degli attori delle r...

Data Analytics vs Data Analysis: What’s The Difference? - bmc blogs

Data analysis, data analytics. Two terms for the same concept? Or different, but related, terms? It’s a common misconception that data analysis and data analytics are the same thing. The generally accepted distinction is: Data analytics is the broad field of using data and tools to make business decisions. Data analysis, a subset of data analytics, refers to specific actions. To explain this confusion—and attempt to clear it up—we’ll look at both terms, examples, and tools. Read more:  https://www.bmc.com/blogs/data-analytics-vs-data-analysis