Sono presenti 73.532 siti web .it agroalimentari

La metodologia

Il sistema per la classificazione automatica dei domini agroalimentari si basa su due fasi principali:

Crawling delle pagine web

Il crawler web è lo strumento necessario per il download dei contenuti dei siti web.
Nello specifico esso è stato progettato e implementato in modo tale da avere le seguenti caratteristiche:

Classificazione automatica dei siti web

La classificazione automatica dei siti web è stata effettuata attraverso il disegno e l’implementazione di due classificatori utlizzati ensemble:

Probabilistic Web Page Classifier

Questo classificatore si basa sull’utilizzo di dizionari creati manualmente, contenenti parole rilevanti, molto rilevanti, poco rilevanti e non rilevanti per ciascuna categoria definita. Il classificatore quindi legge il contenuto del sito web scaricato ed estratto attraverso il crawler al passo precedente, aggiunge alle parole anche il nome del dominio suddiviso in token rilevanti. Il classificatore predice la categoria del sito web analizzando queste parole in relazione ai dizionari creati, assegnando ad ogni parola un determinato peso. In questo modo i siti sono suddivisi in due macro categorie (agro e non agro) e quelli rilevanti (agro) sono quindi assegnati alla categoria più idonea.

SVM-based Web Page Classifier

Questo classificatore si basa su Support Vector Machine, una tecnica di apprendimento supervisionato per la classificazione.
Il dataset utilizzato per l’apprendimento e il testing è stato creato in modo manuale ed è composto da circa 5600 domini annotati in maniera coerente da almeno due persone. Le feature implementate si basano sul contenuto delle pagine web e sul nome del dominio:

Dopo un fase di feature selection per la scelta delle feature da utilizzare, è stato effettuato il training del classificatore utilizzando Support Vector Machine con un kernel di tipo lineare, ottenendo il modello utilizzato per la predizione dei domini.

Ensemble - Agreement

Dato un dominio questo appartiene alla categoria X se e solo se i due classificatori hanno predetto tale categoria: ovvero un dominio è considerato agro solo se entrambi i classificatori li considerano tale e solo se esiste almeno una categoria comune tra i due classificatori.

Riferimenti