Search Marketing

La duplicazione dei contenuti e l'URL Canonico

La duplicazione dei contenuti

La duplicazione di contenuto si verifica nel momento in cui un testo o una porzione di testo è presente su più URL. Se abbiamo un sito web sia in versione mobile sia in versione desktop, i contenuti, tra le due versioni, sono duplicati. Google Search, in questi casi, sceglierà (in base ad algoritmi proprietari) un URL come versione canonica e lo sottoporrà a scansione periodica e gli altri URL sono considerati come duplicati e verranno sottoposti a scansione con una frequenza molto più bassa.

Se non comunichiamo a Google Search quale è la versione canonica per ogni URL, Google Search sceglierà per noi oppure potrebbe considerare le versioni di peso uguale, il che genera comportamenti non desiderati, come ad esempio: dispersione di crawl budget e errata assegnazione query-pagina, con tutte le conseguenze negative che derivano sulla qualità del traffico organico.

La principale missione del motore di ricerca è quella di fornire agli utenti la migliore esperienza di navigazione, fornendo le migliori risorse nel minor tempo possibile; per fare ciò Google ha bisogno di una grande mole di dati tra i quali scegliere. Google Search non è in grado di indicizzare tutte le URL, il motivo principale è legato alla potenza computazionale, internet è troppo vasto, si stima che Google abbia all’interno del suo indice circa il 10% di tutte le pagine presenti su internet.

Alcune delle altre motivazioni che impediscono a Google di indicizzare tutte le pagine presenti sul web sono:

  • il deep web non segue le logiche di scansione di Googlebot;
  • ci sono pagine in sezioni private;
  • ci sono risorse in noindex.

Le pagine considerate da Google come duplicate non vengono mostrate nei risultati di ricerca, inoltre un sito web con molte pagine duplicate potrebbe subire una penalizzazione da Google Panda. Ottimizzare un sito web dal punto di vista SEO vuol dire anche gestire correttamente i contenuti duplicati per fare in modo tale che Google li possa canonicalizzare verso la pagina che si vuole posizionare in SERP.

Esempio in un e-Commerce:

All’interno di un negozio online sono presenti le pagine di archivio prodotti, supponiamo che l’URL principale che mostra tutti i prodotti sia:

https://www.mio-shop-prova.it/scarpe-running

Quando applichiamo un filtro o decidiamo di ordinare i prodotti in base ad un criterio, ad esempio “per prezzo”, l’URL diventa:

https://www.mio-shop-prova.it/scarpe-running/?ordinamento=prezzo

Questa è una situazione normale in quanto con i parametri in GET, in questo caso “/?ordinamento=prezzo”, vengono effettuate delle query al database del sito web per la richiesta di informazioni.

Se questo link https://www.mio-shop-prova.it/scarpe-running/?ordinamento=prezzo è presente all’interno del codice della pagina viene trovato anche dagli spider dei motori di ricerca e quindi è visto come un duplicato di https://www.mio-shop-prova.it/scarpe-running in quanto il contenuto all’interno della pagina è lo stesso. Questa duplicazione genera problematiche molte serie di natura SEO, in quanto potrebbero comparire in SERP le URL parametrate al posto di quelle che noi vorremmo con il rischio di abbassare la qualità del sito. Queste criticità vengono risolte con il Rel Canonical.

URL Canonico: Cos’è

L’URL canonico è quello più rappresentativo tra un insieme di pagine duplicate. Per avere una pagina duplicata è sufficiente anche una porzione di testo non originale e non l’intero contenuto; Inoltre se Googlebot trova due versioni della pagina con contenuti duplicati, è a discrezione dello spider decidere quale è la pagina canonica.

Le pagine canoniche vengono sottoposte a scansione più frequentemente, mentre i duplicati vengono scansionati meno frequentemente, questo per ridurre il carico di lavoro e dare priorità a pagine nuove e/o di maggiore autorevolezza.

Google sceglie la pagina canonica in base ad alcuni segnali (ma non ha l’obbligo di seguirli):

  • se il protocollo della pagina è HTTPS o HTTP;
  • qualità della pagina;
  • presenza della pagina in sitemap.

Google si riserva la facoltà di mostrare in SERP la versione che reputa più in linea per l’utente, solitamente nei risultati di ricerca viene mostrata la versione canonica ma nel caso in cui, come visto in precedenza, per un sito abbiamo sia la versione mobile sia desktop (versione canonica), e l’utente sta effettuando una ricerca da smartphone, Google potrebbe mostrare la pagina non-canonica, questo perché reputa che quella pagina risponde meglio al Search Intent dell’utente in quel momento.

Note: Se una pagina è la variante per dispositivi mobile, è necessario aggiungere il rel=”alternate” indirizzando alla versione per dispositivi mobile. Ad esempio.

Queste due URL: sito-test.it/catalogo-prodotti e m.sito-test.it/catalogo-prodotti hanno contenuti duplicati in quanto entrambe mostrano la lista di prodotti in catalogo e presumibilmente hanno anche lo stesso contenuto testuale, quindi sono duplicate. Il motore di ricerca potrebbe non capire che un contenuto è destinato ad utenti desktop e l’altro ad utenti mobile, quindi potrebbe comportarsi in modo inaspettato e penalizzarci. Per evitare che questo accada dobbiamo aggiungere il Rel Alternate nelle pagine in versione mobile che rimandi alle corrispondenti pagine in versione desktop.

Rel Canonical: Come si Imposta?

Tag rel=canonical

canonical

Per impostare il Rel Canonical è sufficiente inserire l’URL nell’apposito tag HTML. In questo modo indichiamo a Google quali pagine dovrà indicizzare e quali no. Si consiglia di utilizzare URL assoluti e non relativi con l’elemento link rel=”canonical”.

Utilizziamo questa struttura: https://www.mio-shop-prova.it/scarpe-running e non questa: /scarpe-running.

Intestazione HTTP rel=canonical

canonical

Sitemap

Tutte le pagine aggiunte in sitemap vengono considerate da Google come canoniche, per questo all’interno delle sitemap dovranno essere aggiunti soltanto URL canonici. Questo metodo è molto veloce e di facile implementazione per siti web di grandi dimensioni ma Google deve comunque identificare le pagine duplicate per le URL aggiunte in sitemap, invece con il metodo HTML, Google vede da subito quale è la pagina duplicata.

Un altro esempio pratico:

canonical url

Facciamo un Recap

Facciamo un recap dei principali motivi che ci spingono ad indicare una pagina come canonica all’interno di pagine duplicate o simili:

  • Mostrare in SERP soltanto URL senza parametri per evitare comportamenti non voluti da parte degli spider;
  • Ottimizzare il crawl budget, quindi fornire a Google soltanto le pagine per noi importanti e in linea con il nostro business;
  • In caso di attività di link building è consigliato utilizzare URL canoniche così da convogliare l’autorevolezza acquisita soltanto su un URL ed evitare di diluirla tra le altre;
  • Semplificare il monitoraggio delle URL in Google Analytics e Google Search Console;
  • Avere un maggior controllo sui contenuti di nostra proprietà distribuiti sul web;
  • Ottimizzare il crawl budget, meglio ancora se impostiamo il rel canonical da tag .

Rel Canonical Vs Redirect 301

Sia con il redirect sia con il canonical stiamo indicando al motore di ricerca di non considerare una pagina ma di passare ad un’altra, quindi “apparentemente” il risultato è simile. Ma non è così.

Possiamo utilizzare il redirect 301 per indicare a Googlebot che l’URL reindirizzato è una versione migliore dell’URL prestabilito. Si ricorda che il redirect di questo tipo si può utilizzare anche in caso di pagine che rispondono con status code 404 not found.

Si può utilizzare il redirect al posto del rel canonical quando l’URL ormai è obsoleta o non esiste più, ma in certi casi è scorretto perché non sempre l’URL di atterraggio offre gli stessi contenuti agli utenti, per questo è corretto adottare questo metodo con pagine duplicate esistenti.

Gli effetti di un redirect sono più rapidi ma non è applicabile su URL parametrate quindi risolverebbe soltanto in parte il problema.

Siamo parte del gruppo

Datrix SPA
Insieme a

© 2020 ByTek SRL - P. IVA: 13056731006 - REA: MI - 2562796 - Privacy Policy - Cookie Policy