DEMO PAGE 🇬🇧 | DÉMO PAGE 🇫🇷
Regardez la démo vidéo de ScrapyLeaks en action :
Le contenu dupliqué se définit comme étant un contenu qui apparait sur deux ou plusieurs URL avec chemin unique. Par “même contenu”, nous entendons des blocs de contenu qui sont “sensiblement similaires”, ce qui peut aller de la copie exacte au contenu paraphrasé.
Le contenu dupliqué peut être interne : une page qui contient un contenu sensiblement identique à une autre page interne de votre site.
Le contenu dupliqué peut être externe : il se définit comme étant un contenu plagié sur une autre page internet dont vous n’êtes pas le propriétaire.
Très pénalisant tant il est difficile de le contrer, le contenu qui est plagié sur un site ayant une plus forte autorité que le vôtre a de grande chance d’être privilégié par Google. Et ce, peu importe qui a publié le contenu en premier. L’autorité fait loi dans le choix des contenus affichés et sélectionnés par Google et non l’antériorité.
Quels types de contenus sont considérés comme dupliqués ?
Contenu plagié à partir d’une source/url identifiable : Ce type de contenu dupliqué est le plus facile à détecter car il est souvent un simple “copier/coller” mot pour mot, d’une page à une autre.
Contenu paraphrasé, qui a légèrement été modifié par rapport à l’original : Un peu plus difficile à détecter, même si ce contenu a été légèrement réécrit, Google appelle cela du contenu “copié minimalement modifié“. Il le détecte aisément via les Ngram, et qualifie ces pages comme étant similaires.
Nous avons même observé ces derniers mois que lorsque Google détecte trop de pages externes avec des contenus similaires, il lui arrive dans certains cas de les désindexer purement et simplement et de les oublier définitivement.
Pourquoi Google s’intéresse-t-il au contenu dupliqué ?
Google a un problème avec le contenu dupliqué pour différentes raisons :
- Il a encore beaucoup de mal à déterminer quelle page est l’originale : Antériorité|Autorité
- Google limite l’affichage de contenus similaires pour améliorer la qualité de son index de recherche.
- Google a de grosses lacunes dans sa capacité à identifier et comprendre le balisage canonique : perte de paternité|hijacking
Désormais, chaque jour ce sont des centaines de millions de pages qui sont plagiées et renvoyées à l’indexation. Même si Google élimine et détecte pour 99% ce genre de spam, il arrive trop régulièrement que des sites parfaitement légitimes soient quand même victimes de ce type de plagiat. En effet, sans même le savoir, des sites sont pénalisés et certaines de leurs pages sont considérées comme similaires à celles qui l’ont plagié !
Pas de tribunal pour décider qui a plagié ou qui est le responsable. C’est l’algorithme de Google qui décide pour tout le monde. Et parfois à tors en pénalisant le pauvre site légitime ! Et bien sachez le, ce site victime ça peut très bien devenir un jour le votre !
Comment limiter/stopper les risques de contenus plagiés ?
Il est difficile, voir impossible d’empêcher les gens malveillant de copier votre contenu manuellement ou automatiquement (robot scrapeur), mais il existe quelques solutions que vous pouvez mettre en place pour limiter le risque de perte de paternité.
URL canonique :
Badge DMCA :
Un badge DMCA est un sceau de protection placé sur votre site Web qui dissuade les voleurs de voler votre contenu. Service proposé par le site https://www.dmca.com/ donne d’assez bon résultats. Mais quand le mal est fait, il parfois difficile de revenir en arrière.
Monitoring :
Outil qui vous permet de monitorer et détecter le contenu plagié et dupliqué. Grâce à ce genre d’outil vous pouvez surveiller vos contenus, monitorer les risques de plagiats, et détecter d’éventuels contenus dupliqués sur des sites tiers. Ex : Copyscape ; DCChecker ; Killduplicate ou bien PageVerify
ScrapyLeaks Plugin :
Notre plugin vous permet de brouiller les pistes et de protéger votre contenu en le rendant implagiable et incopiable !
Que ce soit par copier/coller ou par des robots scraper, votre contenu restera protégé !