Le scraping web avec n8n permet d'extraire automatiquement des données publiques : prix concurrents, offres d'emploi, avis clients, données marché. Voici comment le faire de manière éthique et efficace.
⚠️ Note légale
Ne scrapez que les données publiques et conformément aux CGU des sites. Respectez le fichier robots.txt. N'extrayez pas de données personnelles sans consentement (RGPD). En cas de doute, utilisez une API officielle.
Méthodes de scraping disponibles dans n8n
HTTP Request + HTML parsing
Télécharge la page HTML et extrait les données via sélecteurs CSS dans un nœud Code. Fonctionne sur les sites statiques.
Limite : Sites dynamiques (JavaScript requis)
Browserless / Puppeteer via API
Navigateur headless pour les sites JavaScript. Utilise browserless.io comme service externe appelé via HTTP Request.
Limite : Plus lent, coût API
ScraperAPI / Apify
Services tiers avec rotation de proxies et gestion des captchas. HTTP Request vers leur API.
Limite : Coût selon volume
Phantombuster
Spécialisé LinkedIn, Instagram, Google. Nœud dédié ou HTTP Request.
Limite : Plateformes sociales uniquement
Parser du HTML dans n8n avec le nœud Code
// Nœud Code — extraire les titres d'une page
const cheerio = require('cheerio');
const $ = cheerio.load(items[0].json.data);
const results = [];
$('h2.product-title').each((i, el) => {
results.push({ title: $(el).text().trim() });
});
return results;