Post

Visualizzazione dei post con l'etichetta Appunti

Alternative a Yahoo Finance per scaricare i dati di borsa

Da qualche mese non è più possibile scaricare gratuitamente lo storico dei dati di borsa da Yahoo Finance. Una scelta comprensibile, dettata probabilmente dalla volontà di monetizzare i dati in loro possesso, ma che rappresenta una perdita per chi utilizza queste informazioni come campo di allenamento per attività di analisi dei dati. I dati di borsa sono, infatti, una delle risorse più versatili per esercitarsi in tutte le fasi del processo di analisi: dall’estrazione e pulizia dei dati, alla loro trasformazione, fino all’analisi di serie storiche e all’applicazione di tecniche previsionali, incluse quelle basate su machine learning. Yahoo Finance: un’opportunità perduta Fino a poco tempo fa, Yahoo Finance consentiva di accedere a dati storici su prezzi, dividendi e frazionamenti per una vasta gamma di titoli, con una profondità temporale che, in alcuni casi, arrivava agli ...

Cos'è jupiter e quali sono le somiglianze e le differenze con kaggle?

Jupyter e Kaggle sono due strumenti importanti per chi lavora con la programmazione, l'analisi dei dati e il machine learning, ma hanno scopi e caratteristiche differenti: Jupyter Notebook Jupyter è un ambiente open-source che permette di creare e condividere documenti interattivi chiamati notebook , usati per scrivere e eseguire codice, documentare progetti e visualizzare i risultati (grafici, tabelle, ecc.). È molto flessibile, supporta diversi linguaggi (Python, R, Julia) e viene installato in locale o su server (usando JupyterLab per progetti più complessi). Sito:  https://jupyter.org/ Kaggle Kaggle è una piattaforma online per competizioni di data science, con un ambiente integrato di notebook e dataset. Permette agli utenti di scrivere codice, partecipare a competizioni di machine learning, accedere a dataset pubblici e collaborare con altri data scientist. A differenza di Jupyter, Kaggle fornisce accesso diretto a risorse di calcolo, come GPU e TPU, senza configura...

LM Studio, l'Intelligenza Artificiale installata sul pc

Da qualche settimana ho scaricato LM Studio ; per ora ci sto solo giocando un po' nel tempo libero ma mi sembra un prodotto molto interessante, da condivdere. LM Studio è una piattaforma gratuita che consente di eseguire modelli di linguaggio avanzati (LLM) direttamente sul proprio pc , senza la necessità di una connessione internet attiva. Questo risulta particolarmente utile per chi ha esigenze specifiche di privacy o per chi lavora in ambienti con accesso limitato al web. Supporta modelli come Llama, Mistral e Phi, ed è compatibile con i principali sistemi operativi come Windows, macOS e Linux. Al momento sto provando due modelli molto leggeri - Llama 3.1 nella versione da 8B e Gemma 2 nella versione da 2B - ed entrambi funzionano senza problemi su di un pc, tutto sommato, non particolarmente corrazzato (il processore è un Intel Core i7-12700H, 16GB RAM, scheda video GeForce RTX 3050 con 4GB di memoria dedicata). Anche se i risultati, soprattutto con Gemma, non sono ancora ent...

Cos'è OpenAI o1 e cosa significa che "è in grado di pensare"?

Ieri OpenAI ha presentato " o1 " ,  un nuovo modello di IA progettato per eccellere in attività che richiedono ragionamento complesso, come la risoluzione di problemi scientifici, matematici e di codifica. In particolare, secondo quanto dichiarato dall'azienda il modello è in grado di "pensare" prima di rispondere, portando a risposte più accurate e ponderate rispetto ai modelli precedenti, come GPT-4.  Inizialmente, il modello o1 non supporterà alcune funzionalità avanzate (ad esempio la navigazione web, il caricamento di file o l'analisi dati, che rimangono competenze di GPT-4); tuttavia, le sue capacità di ragionamento avanzato lo rendono adatto a compiti come la risoluzione di equazioni matematiche complesse o la scrittura di codice avanzato.  Cos'è OpenAI o1? OpenAI o1 è un nuovo modello di intelligenza artificiale sviluppato da OpenAI, progettato per migliorare la capacità di ragionare e risolvere problemi complessi. A differenza dei modelli prec...

Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente

Quando si entra nel fantastico mondo dell'analisi dei dati il primo ingrediente che serve sono... i dati. E le raccolte di dati diventano fondamentali anche in seguito quando, ad esempio, si vuole addestrare un modello di machine learning. In questa pagina annoto i siti dai quali è possibile scaricare gratuitamente e legalmente dataset curati di dati. Chiunque può contribuire segnalandone di nuovi nei commenti Meta Datasets . La pagina dei Datasets di Meta AI offre un'incredibile raccolta di dataset su larga scala e benchmark per l'addestramento, il test e la valutazione dei modelli di intelligenza artificiale. I dataset coprono vari ambiti come la segmentazione degli oggetti, modelli visione-linguaggio, ricostruzione 3D, equità algoritmica e traduzione automatica. Esempi includono il dataset SA-V per la segmentazione, FACET per valutare l'equità nei modelli visivi e Ego4D per la comprensione di video in prima persona. Tutti i dataset possono essere scaricati gratuita...

Corsi e libri gratuiti online su Python

Come primo passo è opportuno  e utile un bel giro sul sito ufficiale della comunità italiana di Python ( http://python.it/ ), ricco di informazioni utili a chi si avvicina per la prima volta a questo linguaggio. Altra documentazione (ovviamente in inglese) è disponibile sul sito ufficiale di Python ( https://www.python.org/ ) Poi, in ordine di utilità decrescente: Corso di introduzione alla programmazione su Kaggle ( https://www.kaggle.com/learn/intro-to-programming ). Corso molto utile per chi non ha mai programmato, introduce in modo veloce ad alcuni temi della programmazione in generale (anche se la sintassi utilizzata è quella di Python). Consigliato " Pensare in Python " (versione italiana di Think Python di Allen Downey), ottimo libro per apprendere le basi di Python. Assolutamente consigliato, a patto che si svolgano puntualmente tutti gli esercizi indicati . Può essere scaricato gratuitamente qui:  https://github.com/AllenDowney/ThinkPythonItalian/blob/maste...

How much statistics is enough to do data science? - Knime blog

Some people say, “The data speaks for itself.”  But the data never speaks. And it needs interpreters.  Data science and statistics go hand in hand. In data science, we collect, analyze, and visualize data. Statistics give us a lens on our data to spot patterns, trends, and connections. Statistics help us see when our analysis is off and ensure our analysis isn’t just based on intuition but grounded in fact.  Statistical thinking can help you decide whether ideas, commonly believed to be sound and intuitive, are perhaps not as rational as initially perceived. While the outcome of an analysis might seem straightforward on the surface, statistical analysis allows us to delve deeper. Leggi tutto:  https://www.knime.com/blog/statistics-for-data-science

Formato delle date e ore in una serie storica

Uno degli aspetti più interessanti della data analytics è che salta sempre fuori qualcosa di nuovo da imparare. L'ultima scoperta (scrivo sempre da "novizio" della materia, non dimenticarlo per favore) è che anche le date (giorni, settimane, mesi e trimestri) hanno un loro standard. Il problema mi si è posto quando ho iniziato a scrivere le specifiche di aggregazione di alcuni dati che, da puntuali (sono raccolti ad ogni transazione, anche più volte al minuto), devono essere aggregati a livello giornaliero, settimanale ecc. per successive analisi: esiste un modo "più corretto" di indicare la data di un giorno? giornomeseanno ,  annomesegiorno ? o mesegiornoanno ? una settimana come si indica? e, ancora prima, come si calcola il numero della settimana in un anno? e il giorno della settimana? "lunedì" per i colleghi italiani ha chiaramente un senso (è il giorno più deprimente della settimana), ma per un collega indiano? Cercando una risposta a queste do...

Piattaforme popolari per competizioni di Machine Learning

Ecco alcune piattaforme, scelte da ChatGPT, che ti offriranno l'opportunità di partecipare a competizioni di machine learning stimolanti, confrontarti con altri data scientist e affinare le tue competenze: Kaggle ( www.kaggle.com ) è una delle piattaforme più famose per competizioni di machine learning. Offre una vasta gamma di competizioni con premi in denaro, dataset interessanti e un ambiente di sviluppo con strumenti integrati come notebook Jupyter. DrivenData ( www.drivendata.org ) è una piattaforma che mette in contatto scienziati dei dati con problemi socialmente rilevanti. Le competizioni su DrivenData spaziano da problemi di salute pubblica a sostenibilità e forniscono un modo per applicare le tue competenze di machine learning per scopi benefici. CrowdAI ( www.crowdai.org ) è una piattaforma per competizioni di machine learning organizzate da vari partner. Le competizioni su CrowdAI coprono una vasta gamma di argomenti, tra cui visione artificiale, elaborazione del lin...

7 siti utili per approfondire il Machine Learning

Ho chiesto a ChatGpT di indicarmi alcuni siti che potrebbero essermi utili per approfondire il machine learning  e questa è la sua scelta: Coursera ( www.coursera.org ): Coursera offre corsi online di alta qualità su una vasta gamma di argomenti, incluso il machine learning. Puoi seguire corsi come "Machine Learning" di Andrew Ng, che è molto popolare e ben strutturato. Kaggle ( www.kaggle.com ): Kaggle è una piattaforma di data science che ospita competizioni, dataset e risorse di apprendimento. Puoi partecipare alle competizioni di machine learning, collaborare con altri data scientist e accedere a molti tutorial e notebook condivisi. TensorFlow ( www.tensorflow.org ) e PyTorch ( pytorch.org ): Questi sono i due framework di machine learning più popolari e ampiamente utilizzati. I loro siti ufficiali offrono documentazione dettagliata, guide di apprendimento e una vasta gamma di risorse per iniziare con il machine learning. Medium ( medium.com ): Medium è una piattafor...

Dal principiante all'esperto: un piano di studio graduale per il Machine Learning

Ho chiesto a ChatGPT di prepararmi un piano di studio per approfondire l'argomento del machine learnign  e questo è il risultato. Non ho ancora le competenze per valutarlo: se avete idee, integrazioni, suggerimenti per migliorarlo vi chiedo di lasciarlo nei commenti. Grazie Fondamenti di matematica e statistica: Algebra lineare: vettori, matrici, operazioni, spazi vettoriali. Calcolo differenziale e integrale: derivate, integrali, regole di calcolo. Statistica: distribuzioni di probabilità, media, deviazione standard, inferenza statistica. Concetti di base del machine learning: Introduzione al machine learning: definizioni, tipi di apprendimento, approcci. Supervised learning: regressione, classificazione, funzioni di costo, algoritmi (regressione lineare, regressione logistica, support vector machines, decision trees, random forests). Unsupervised learning: clustering, riduzione della dimensionalità, algoritmi (K-means, PCA). Valutazione del modello: met...

Utilizzare ChatGPT per raccogliere dati e informazioni

Immagine
Ieri ChatGPT ha detto che potrebbe aiutarmi nel mio lavoro di analista dei dati, ad esempio fornendomi "supporto nella ricerca e nell'organizzazione dei dati"  precisando che può aiutarmi a "cercare e organizzare dati utili per le tue analisi, raccogliendo informazioni da diverse fonti e presentandole in modo chiaro e conciso." Su questo tema è tuttavia necessaria tanta prudenza: benchè OpenAI lo metta ben in evidenza nella schermata iniziale, man mano che cresce la "familiarità" con ChatGPT (oggi nella versione GPT-4) è facile dimenticarsi che sstiamo parlando con un modello addestrato su dei dati e che le informazioni in suo possesso si fermano a settembre 2021. Immagine generata con DALL-E Un esempio concreto? Visto che oggi non è giornata di lavoro ho chiacchierato con ChatGPT di calcio. Ecco come è andata: Io : Ciao ChatGPT. Ti piace il calcio? GPT : Ciao! Sono un'intelligenza artificiale e non ho una capacità di piacere o di apprezzamento, qu...

Come usare ChatGPT per migliorare il proprio lavoro

Immagine
Di "Intelligenza Artificiale" si parla quotidianamente; io, però, non ho ancora idea di come posso utilizzarla per rendere migliore - e anche più facile - il mio lavoro. In questo momento sono come un apprendista che ha tra le mani uno strumento nuovo e sconosciuto e si domanda "come si usa? cosa posso fare?" Non avendone idea ho provato, anche un po' per rompere il ghiaccio, a chiedere all'Intelligenza Artificiale stessa come mi potesse essere d'aiuto nel mio lavoro. Immagine generata con DALL-E Mi sono quindi iscritto a  OpenAI  e ho digitato la mia domanda: Come ChatGPT può migliorare il mio lavoro di data analyst? E questa è la risposta che ho ottenuto: «Come assistente virtuale basato su testo, posso fornirti alcune informazioni che potrebbero aiutarti nel tuo lavoro di analista dei dati. Ecco alcune idee: Supporto nella ricerca e nell'organizzazione dei dati: posso aiutarti a cercare e organizzare dati utili per le tue analisi, raccogliendo inf...

Soccer analytics data​: Beginners guide - Christian Kotitschke

If you're new to data analytics in soccer and want to learn about data sources and datasets available to you, how to get to them and what to expect, you might find the below article of interest. It is meant to give you a quick primer and introduction to the most popular sources known to me at this point, different types of data and their basic applications. Read more:  https://www.linkedin.com/pulse/soccer-analytics-data-beginners-guide-christian-kotitschke/