• Contattaci
  • HOME
  • SOFTWARE
  • Analisi statistiche su grandi quantità di dati

Analisi statistiche su grandi quantità di dati

Software, Report Statistici

Possiamo realizzare software capace di estrarre report statistici, ad esempio in formato CSV in seguito all'elaborazione di grandi quantità di dati (es. 1 Terabyte di dati suddiviso in circa 500.000 files contenenti informazioni in HTML).

A seguire due di esempi di casi d'uso recentementi approntati.

Realizzazione di un sistema di conteggio e classificazione delle parole presenti in un documento che appartengono ad un dizionario di parole



Produzione di un report, ad esempio in CSV, che mostra l'occorrenza in percentuale delle parole per ogni dimensione dei dizionari per i quali è stata fatta l'elaborazione con la possibilità di aggiungere ulteriori segmenti di accorpamento.

Dato un insieme di documenti (ad ogni documento corrisponde un file) ed un dizionario di parole, diviso in una o più dimensioni, il sistema effettuerà le seguenti operazioni:

  • Individuazione del contenuto da elaborare
  • Rimozione dei commenti HTML
  • Rimozione delle tabelle
  • Rimozione degli headers
  • Ricodifica dei caratteri speciali codificati al loro valore originale
  • Pulizia dei documenti da eventuali tag HTML e non
  • Rimozione dei numeri
  • Rimozione di simboli e della punteggiatura
  • Rimozione delle parole corte
  • Indicizzazione delle parole del documenti
  • Conteggio delle occorrenze delle parole che costituiscono ogni dimensione del dizionario e calcolo di un punteggio in percentuale
  • Produzione, di un report finale in CSV

Realizzazione di un sistema di valutazione di similarità di due documenti



Il sistema, previa una fase di opportuna pulitura e di memorizzazione di un dizionario associato ad ognuno dei due file, è capace di produrre un indice finale in percentuale che misura la similitudine dei due documenti.

In dettaglio, per ogni coppia di due documenti (ad ogni documento corrisponde un file), il sistema effettuerà le seguenti operazioni:

  • Rimozione dei commenti HTML
  • Rimozione delle tabelle
  • Rimozione degli headers
  • Ricodifica dei caratteri speciali codificati al loro valore originale
  • Pulizia dei documenti da eventuali tag HTML e non
  • Rimozione dei numeri
  • Rimozione di simboli e della punteggiatura
  • Rimozione delle parole corte
  • Indicizzazione delle parole del documenti
  • Confronto tra i due dizionari di parole precedentemente ottenuti, tenendo conto anche dell'occorrenze
  • Produzione di un indice finale in percentuale che misura la similitudine dei dizionario dei due documenti.

X Questo sito o gli strumenti terzi da questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie, consulta la cookie policy. Chiudendo questo banner, cliccando su accetto, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie.
Accetto