Les systèmes automatiques de filtrage du contenu permettent d'analyser une quantité importante de données. Ils signalent tout contenu répondant à certains critères. Des mesures peuvent alors être prises concernant ces contenus. Les éditeurs se servent souvent de solutions de filtrage de contenus textuels et multimédias pour gérer le contenu qui est généré par les utilisateurs sur leurs sites. De tels systèmes sont souvent mis en œuvre pour filtrer du contenu réservé aux adultes ou associé à des échanges illégaux de fichiers, et du contenu lié à des activités de vente d'armes à feu, de drogue, d'alcool ou de tabac.
Développer une solution interne
De nombreux éditeurs choisissent de créer leur propre système de filtrage de contenu. Les avantages d'une telle décision sont les suivants :
- Il est relativement facile de créer des programmes de filtrage de contenus textuels.
- Il est bien souvent beaucoup moins coûteux de créer sa propre solution que d'acheter une solution qui existe déjà sur le marché.
- Parce que l'éditeur connaît son site et ses utilisateurs, il est le mieux placé pour évaluer les risques de non-respect de nos règles.
Créer une liste de mots clés
- Créez votre propre liste de mots et expressions que vous souhaitez filtrer. Ajoutez-y des idées qui vous viennent à l'esprit et faites appel à d'autres moyens. Voici quelques recommandations :
- Faites participer vos employés.
- Faites participer vos utilisateurs.
- Utilisez l'outil de planification des mots clés Google Ads.
- Vous pouvez également vous référer à des sites qui hébergent du contenu indésirable (sites de partage illégal de fichiers et/ou de contenu réservé aux adultes, par exemple), afin d'identifier les mots clés qui apparaissent fréquemment.
- Créez votre propre outil de scraping de mots clés :
- Utilisez les données des moteurs de recherche afin d'analyser l'ensemble des pages d'un site.
- Récupérez-y une liste de mots et de combinaisons de mots.
- Conservez les mots clés utilisés le plus fréquemment, en veillant à supprimer les mots courants, du type "un", "une", "le", "la", "et".
- Enregistrez les résultats dans un fichier texte.
- Répétez ce processus pour autant de sites que nécessaire, jusqu'à ce que vous ayez compilé une liste qui vous convienne.
- Important : Le scraping de contenu à partir d'autres sites pour vous l'approprier va à l'encontre du Règlement Google pour les éditeurs et des Règles concernant le spam pour la Recherche sur le Web Google. Une telle activité peut également être considérée comme illégale et/ou contraire à l'éthique.
Les mots clés n'ont pas tous la même valeur. Certains peuvent être plus indésirables que d'autres. Nous vous recommandons donc de procéder à une pondération de vos mots clés.
Par exemple, les systèmes français de filtrage de contenus réservés aux adultes devraient accorder une importance plus importante au mot "pornographie" qu'au mot "sexe". En effet, "pornographie" est presque exclusivement lié à un contenu réservé aux adultes, tandis que "sexe", en fonction du contexte, peut s'apparenter à la notion de genre.
N'oubliez pas d'inclure des mots qui n'ont aucune connotation négative lorsqu'ils sont utilisés de façon individuelle, mais qui peuvent se référer à des contenus indésirables lorsqu'ils sont associés à d'autres mots. Par exemple, le terme "photos" ne pose pas de problèmes, mais l'expression "photos d'adolescents" peut souvent faire référence à de la pornographie.
Méthode 1 : le contenu généré par les utilisateurs est analysé après avoir été publié sur la page
- Le contenu est analysé.
- Tout contenu qui répond aux critères de filtrage est signalé.
- Vous désactivez la diffusion d'annonces sur la page en question.
- Vous vérifiez ensuite manuellement ce contenu :
- Si le contenu respecte les règles AdSense, vous pouvez activer de nouveau la diffusion d'annonces sur la page en question. Pensez également à apporter des modifications au système de filtrage.
- Dans le cas contraire, veillez à retirer ce contenu sur toutes les pages qui contiennent le code d'annonce.
Méthode 2 : le contenu généré par les utilisateurs est analysé avant d'être publié sur la page
- Le contenu est analysé.
- Tout contenu qui répond aux critères de filtrage est signalé.
- Vous pouvez rejeter immédiatement le contenu en question, ou bien le mettre de côté afin de l'examiner de plus près ultérieurement.
- Vous vérifiez ensuite manuellement ce contenu :
- Si le contenu respecte les règles AdSense, vous pouvez le publier sur les pages sur lesquelles vous diffusez des annonces. Pensez également à apporter des modifications au système de filtrage.
- Dans le cas contraire, choisissez soit de rejeter ce contenu, soit de le publier, mais en veillant à désactiver la diffusion d'annonces sur la page en question.
Brève présentation des solutions commerciales
Il existe plusieurs services qui fournissent des solutions de filtrage de contenu. Certains sont même spécialisés sur des types de contenus spécifiques (réservés aux adultes ou ne respectant pas les droits d'auteur, par exemple). Il existe également des plates-formes à l'externalisation ouverte qui cherchent à rapprocher les éditeurs de leurs utilisateurs, contre rémunération. Il est donc important que vous étudiez les solutions qui existent afin d'en choisir une qui convient aux besoins de vos services. Les sites d'évaluation de programmes informatiques peuvent être utiles en ce sens. Tenez compte des recommandations fournies sur ces sites, mais également du prix et des fonctionnalités qu'il propose.