Text mining e sentiment analysis con R di Valentina Porcu
Italiano | 23 ottobre 2016 | ASIN: B01M5F2L85 | 424 Pagine | AZW3/MOBI/EPUB/PDF (conv) | 19.7 MB
Italiano | 23 ottobre 2016 | ASIN: B01M5F2L85 | 424 Pagine | AZW3/MOBI/EPUB/PDF (conv) | 19.7 MB
In questo libro ci occuperemo di esplorare l’analisi dei testi tramite il linguaggio di programmazione per l’analisi dati R. Pertanto, questo libro presuppone una conoscenza delle strutture e procedure di base di R.
Cominciamo presentando in generale le tecniche di text mining e le fasi del processo di analisi.
Nel Capitolo 1 vediamo le fasi di preprocessing e normalizzazione dei testi.
Il Capitolo 2 affronta le prime analisi dei testi prevalentemente con il pacchetto base di R.
Nel Capitolo 3 affrontiamo l'analisi di un testo e di un corpus tramite il pacchetto tm, uno dei pacchetti più importanti e utilizzati per l'analisi dei testi
Nel Capitolo 4 vediamo alcuni esempi di machine learning su testi tramite metodi supervisionati, come la regressione logistica, il Naïve Bayes, il k-nn, il Support Vector Machine, gli alberi di decisione e i network neurali; e non supervisionati come il clustering. Vediamo inoltre i topic models e l'allocazione latente di Dirichlet. Questi algoritmi predittivi utilizzati nel text mining, vengono utilizzati ad esempio per l’identificazione dello spam, il riconoscimento degli autori di un testo e il riconoscimento del sentiment di un corpus.
Nel Capitolo 5 vediamo come creare un account su Twitter, e come estrarre e analizzare i tweet.
Nel Capitolo 6 vediamo alcune funzioni e pacchetti specifici per la gestione delle stringhe, quindi manipolazione, sostituzione ed eliminazione di elementi all'interno dei nostri testi.
Nel Capitolo 7 ci occupiamo di altri pacchetti per il text mining che permettono ad esempio task legate al parsing e al riconoscimento degli elementi di un testo, ma anche pacchetti che permettono l’identificazione della lingua dei testi in analisi oppure semplicemente che rappresentano un’alternativa a tm o che lo integrano in qualche modo. Ad esempio il pacchetto textcat, che ci permette di individuare la lingua di un testo, il pacchetto qdap, che contiene moltissime funzioni per la pulizia e il trattamento di testi, e pacchetti come quanteda che permette di calcolare gli ngram.
Nel Capitolo 8 vedremo alcune funzioni relative in maniera specifica all visualizzazione dei dati nel text mining.
Il Capitolo 9 è dedicato alla Sentiment Analysis, sia tramite metodi non supervisionati (basati fondamentalmente sul confronto tra un testo o un corpus di testi e un dizionario di parole taggate come positive e negative), e metodi supervisionati, che si basano su dataset, ad esempio di recensioni, precedentemente etichettate come positive oppure come negative.
Infine nel Capitolo 10 diamo qualche nozione di analisi qualitativa tramite il metodo CAQDAS e il pacchetto per R RQDA.