CRAWLING & SCRAPING

Aujourd’hui, il est indéniable que les nouvelles technologies prennent une place de plus en plus importante dans notre quotidien. Réseaux sociaux, objets connectés, villes intelligentes et politiques d’open data sont de ces pratiques qui font part de cette prépondérance ; leur point commun : l’utilisation des données collectées. Dès lors, la question se pose de savoir comment encadrer cette collecte, notamment lorsqu’elle est automatisée.

Aujourd’hui, les plus jeunes générations naissent et grandissent dans un monde dirigé par les nouvelles technologies. Si l’utilisation de ces instruments leur paraît de fait assez intuitive, la façon dont sont collectées et réutilisées les données personnelles produites est une question qui n’amène pas une réponse évidente.

Comme le soulignait Susan Barnes en théorisant le principe du « privacy paradox », relatif à la vie privée (1) : « les adolescents fournissent volontairement et gratuitement leurs données personnelles aux réseaux sociaux [mais] s’étonnent que leurs parents lisent leur journal ». La comparaison est pertinente, et fournit un aperçu des risques liés à la collecte de données.

En dehors de ces questions liées à l’identité numérique, il est important de comprendre qu’internet est un outil qui fonctionne sur les données fournies par ses utilisateurs. L’émergence du « Big data » devait, nécessairement, s’accompagner d’outils de collecte automatisée de ces données. C’est notamment le cas des pratiques de « crawling » et de « scraping ».

Ces logiciels permettent en effet, dans un laps de temps très court, d’obtenir une quantité importante d’informations utiles pour une entreprise ou un particulier, à partir d’une liste de sites constituant le « champ d’action » du robot.

Néanmoins, ces pratiques demeurent encadrées. Elles doivent répondre à certains principes, et notamment à ceux liés à la protection des données collectées automatiquement.

Dès lors la propriété, la nécessité d’une autorisation préalable pour la collecte, ou encore les questions liées à la réutilisation de ces données sont des enjeux de taille qui dictent les limites de la légalité de ces outils de collecte automatisée.

Pour en saisir toute l’importance il convient donc de comprendre, dans un premier temps, les différents usages qui peuvent être faits de ces outils (I), pour ensuite envisager le cadre protecteur des données collectées automatiquement (II).

 

I) Les différents usages des crawlers et scrapers

La récolte des données à des fins d’information (A), tout comme l’indexation et la réutilisation de celles-ci (B), sont les objectifs visés par l’usage de ces outils numériques.

A) La récolte des données

Les crawlers, tout comme les scrapers, sont des programmes informatiques ayant la même finalité : la récolte de données de manière automatisée.

En effet, le crawling est une pratique qui consiste à « collecter [automatiquement] le contenu d’une page pour ensuite la traiter, la classer et fournir des informations » (2) au propriétaire du logiciel .

La définition du scraping, dans ce contexte, paraît presque similaire en ce que le logiciel va « extraire du contenu d’un site Web dans le but de le transformer pour permettre son utilisation dans un autre contexte ».

Néanmoins, la récolte de ces données ne va pas fonctionner sur le même principe, que l’on soit dans le cas des crawlers ou dans celui des scrapers.

En effet, les crawlers vont fonctionner sur un principe de redirection : à partir d’une liste (« seed ») de sites prédéfinis par l’utilisateur du robot, le crawler va dans un premier temps se rendre sur ces pages et en récupérer l’intégralité du contenu. Par la suite, le logiciel va extraire l’ensemble des liens URLs présents sur les pages analysées, et suivre ces liens pour également analyser le contenu des pages référencées sous ces liens.

Pour une utilisation plus « pertinente » du logiciel, les propriétaires peuvent donner des consignes précises par le biais du fichier « robot.txt » et ainsi cibler le contenu à récolter.

La différence fondamentale entre les crawlers et les scrapers demeure que ces derniers doivent connaître « précisément » la structure des sites analysés pour fonctionner.

Quand le crawler va « se promener de site en site » (3), le scraper va se baser sur un « patron » configuré au préalable, qui prend en compte la structure HTML de la base de donnée analysée, afin de pouvoir extraire de manière pertinente les données et leur mise à disposition sur les pages consultées.

Les agences « 1 min 30 s » et « Centraledesmarchés.com » constituent des exemples illustrant : quand la première fait usage de crawlers pour analyser les « forces et faiblesses » de sites de marketing en ligne à travers l’analyse de leurs outils et pratiques, la seconde référence quotidiennement, depuis 2013, les appels d’offres publics d’une centaine de sites par le biais de scrapers.

B) L’indexation et la réutilisation des données

La traduction française du terme « crawler » s’intitule « Robot d’indexation » (4). Comme on l’a dit, tout l’intérêt de ce genre d’outil consiste en la récolte et l’analyse de données contenues sur des pages Web.

Ceci étant, des questions peuvent se poser au regard de l’exploitation des données récoltées par ce biais.

L’objectif principal de ces outils demeure celui de tirer des informations pratiques et concrètes de ces données : une fois récoltées, puis triées et structurées en fonction de leur pertinence et de ce que recherche l’auteur, elles permettront d’avoir une vision précise du contenu et des pratiques, pour l’usager, des pages analysées.

Mais, comme on l’a vu, ces données peuvent également être réexploitées dans un but bien précis : c’est l’exemple de la plateforme américaine Common Crawl, ayant pour objectif d’archiver le plus de pages Web possible, et de rendre disponible leur accès via le site de la fondation. On estime qu’aujourd’hui, la plateforme centralise environ 15 % du web mondial, grâce à l’usage de crawlers (5).

De plus, certains pourraient être tentés de réutiliser les données collectées, afin par exemple d’augmenter le trafic de leur propre site internet. Il faut savoir qu’il existe de nombreux types de crawlers et de scrapers : ceux utilisés par les moteurs de recherche pour indexer du contenu (le plus connu étant le Google bot), ceux utilisés par les sites pour corriger et optimiser leur contenu (Outils SEO), ceux utilisés pour la veille tarifaire, etc.

Ces pratiques posent plusieurs questions, au regard du droit rattaché à ces différentes utilisations du jeu de données récolté : des questions de droit de la concurrence, mais aussi et plus largement des questions liées au droit de la propriété intellectuelle et à la protection accordée à ces données et bases de données.

 

II) Les atteintes à la protection de ces données

La propriété intellectuelle et le droit d’auteur offrent un cadre légal protection aux données récoltées automatiquement (A). Ceci étant, le propriétaire de ces données pourra également chercher à se prémunir lui-même d’une telle collecte (B).

A) Le cadre imposé par le droit de la propriété intellectuelle et le droit d’auteur

L’indexation, tout comme la réutilisation, sont deux des finalités principales des outils présentés ici. Pour autant, ces pratiques sont encadrées par le droit, et notamment par la propriété intellectuelle, pour éviter tout type d’abus.

Le principal risque, pour celui qui réexploite ces données, est constitué par la possible action en contrefaçon à son égard par le propriétaire des données.

Dans le cadre d’une indexation des données, en réalité, la contrefaçon ne sera généralement pas admise. En effet, même si l’indexation de données récoltées par l’usage de crawlers va permettre au réexploitant d’augmenter le nombre de visites de son site, l’indexation fait normalement référence aux sources citées et, de ce fait, n’entre pas en contradiction ni avec le droit d’auteur , ni avec le droit des bases de données.

C’est notamment ce qu’a pu retenir le Tribunal de grande instance de Paris, dans son arrêt « Adenclassified » du 1er février 2011 ayant débouté de sa demande une société dont les données ont été indexées, les faits ne constituant pas une violation du « droit sui generis du producteur de bases de données » (6).

À la lecture de cette décision, on comprend également que l’extraction de données par le biais de ces outils numériques dans la poursuite d’un objectif de réutilisation « de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données » est constitutive d’un acte de contrefaçon, comme le prévoient expressément les articles 342-1 et 342-2 du Code de la propriété intellectuelle.

Au demeurant, il n’existe pas de règles précises concernant l’établissement du caractère substantiel du contenu. Ainsi, la reconnaissance d’un tel critère se fera au cas par cas par le juge du litige en question, et il convient donc aux utilisateurs des extracteurs de mesurer l’exploitation qu’ils feront de ces données.

B) Les moyens de lutte contre ces outils

Il est souvent recommandé aux utilisateurs d’outils comme les crawlers et scrapers d’agir avec mesure et parcimonie : par exemple, ceux-ci ne devront pas surcharger les serveurs des sites visités par un nombre de requêtes trop important, au risque de causer un déni de service qui pourra facilement s’apparenter à un acte de concurrence déloyale.

En outre, certains propriétaires de sites peuvent vouloir se prémunir face à ces outils, refusant de voir leurs données récoltées. En effet, ces pratiques peuvent être perçues par certains comme une forme de « pillage » de contenu original (7).

La Cour de justice de l’Union européenne a, entre autres, pu considérer que l’usage de scrapers n’est pas par défaut illégal. En effet, le juge européen a rappelé dans un arrêt du 19 décembre 2013 (8) que la mise à disposition par un moteur de recherche du contenu de la base de données d’un site de vente en ligne sans aucune modification ne portait pas préjudice aux droits du requérant.

Il est d’ailleurs curieux de lire une telle décision, quand on sait que Google a tendance à désindexer de ses résultats de recherche les sites utilisant de tels outils, tout en étant l’un des plus grands adeptes de l’outil : Google Shopping, entre autres, propose effectivement des comparaisons de prix de vente issus de différents sites marchands en pratiquant le scraping (9).

Quoi qu’il en soi, si la pratique n’est pas formellement bannie, les propriétaires de sites peuvent s’en prémunir. La Cour d’appel de Paris, dans son arrêt « SAIF c/Google » du 26 janvier 2011, soutenait effectivement que « chaque webmaster peut, via son fichier robot.txt, contrôler la manière dont les données de son site sont visitées par les crawlers, notamment en interdisant l’accès à certaines d’entre elles » (10).

L’action en contrefaçon, ouverte à la suite de la violation d’un droit privatif conféré par la protection du droit d’auteur, ainsi que l’action en concurrence déloyale, fondée sur la responsabilité délictuelle, sont deux procédures judiciaires de règlement des conflits liés à de telles pratiques. Mais, comme on l’a vu, le propriétaire de bases de données peut également se prémunir de ces pratiques que d’aucuns considèrent comme attentatoires. La légalité, tout comme la légitimité, du crawling et du scraping restent donc encore aujourd’hui discutables.

Pour lire une version mobile de l'aticle, cliquez sur crawling

_________________________________________________________________________________

Faites appel à notre cabinet d'avocats en cas de doutes ou de demande d'éclaircissements, nous sommes à votre disposition : téléphone : 01 43 37 75 63
_________________________________________________________________________

ARTICLES QUI PEUVENT VOUS INTERESSER :

SOURCES :

(1) http://firstmonday.org/article/view/1394/1312_2
(2) https://fr.oncrawl.com/seo-technique/introduction-crawler-web/
(3) https://www.c-radar.com/blog/2017/04/24/developper-votre-intelligence-commerciale-avec-le-crawling-et-le-scraping/
(4) https://fr.wikipedia.org/wiki/Robot_d%27indexation
(5) https://www.c-radar.com/blog/2017/04/24/developper-votre-intelligence-commerciale-avec-le-crawling-et-le-scraping/
(6) https://www.legalis.net/jurisprudences/tribunal-de-grande-instance-de-paris-3eme-chambre-1ere-section-jugement-du-01-fevrier-2011/
(7) https://fr.wikipedia.org/wiki/Web_scraping
(8) http://curia.europa.eu/juris/document/document.jsf?docid=145914&doclang=FR
(9) https://www.islean-consulting.fr/fr/transformation-digitale/scraping-pages-web-legal/
(10) https://www.legavox.fr/blog/maitre-matthieu-pacaud/extraction-indexation-donnees-crawlers-internet-22421.htm

retour à la rubrique 'Autres articles'

Cet article a été rédigé pour offrir des informations utiles, des conseils juridiques pour une utilisation personnelle, ou professionnelle.

Il est mis à jour régulièrement, dans la mesure du possible, les lois évoluant régulièrement. Le cabinet ne peut donc être responsable de toute péremption ou de toute erreur juridique dans les articles du site.

Mais chaque cas est unique. Si vous avez une question précise à poser au cabinet d’avocats, dont vous ne trouvez pas la réponse sur le site, vous pouvez nous téléphoner au 01 43 37 75 63.

| Conditions d'utilisation du site: IDDN | | Contacts | Plan d'accès | English version |
| C G V | Sommaire | Plan | recherche | Internet | Vie des sociétés | Vie quotidienne | Services en ligne | Votre question? |
Connexion sécurisé ssl 256
Nous joindre - Tel : 0143377563
En poursuivant votre navigation sur notre site, vous acceptez le dépôt de cookies qui nous permettront de vous proposer des contenus intéressants, des fonctions de partage vers les réseaux sociaux et d’effectuer des statistiques. Voir notre politique de gestion données personnelles.
Partager
Suivre: Facebook Avocat Paris Linkedin Avocat Paris Tumblr Avocat Paris Twitter Avocat Paris Google+ Avocat Paris App.net portage salarial RSS Valide!
Retour en haut