🌐 Connecter un site public à Mayday

👋 Introduction


Centraliser vos connaissances, c’est la mission de Mayday : les gĂ©rer, les gouverner et en capitaliser la valeur pour aider vos conseillers et vos clients finaux Ă  trouver la bonne information le plus rapidement possible. Cette intĂ©gration vous permet dĂ©sormais de connecter des sites publics Ă  votre base de connaissances  🌐

❓ Quelle est cette fonctionnalitĂ© ?


Il s’agit d’une nouvelle source de donnĂ©es “Site public” disponible dans le catalogue d’intĂ©grations de Mayday Admin (centre d’administration). Elle complĂšte les intĂ©grations existantes (par exemple SharePoint) et permet d’indexer et de synchroniser le contenu de sites publics compatibles, afin de le rendre accessible et gouvernĂ© dans Mayday. Cette fonctionnalitĂ© s’adresse aux administrateurs qui souhaitent centraliser du contenu externe aux cĂŽtĂ©s de leurs documents internes. đŸ§©

đŸ€” Comment ça marche ?


⚙ Ouvrez le catalogue d’intĂ©grations

cleanshot_2025_11_03_at_19_33_17_2x___kuozskodqdxnuowl.png

Dans le catalogue d’intĂ©grations, cliquez sur Contenu externe.

➕ CrĂ©ez la source

cleanshot_2025_11_03_at_19_35_08_2x___tzltlbse93lmqzwd.png

Créez une nouvelle source de données et choisissez le type Site public.

đŸ‘„Â DĂ©finissez les accĂšs

Définissez les groupes qui auront accÚs à cette source de données.

🎯 DĂ©finissez le pĂ©rimĂštre

cleanshot_2025_11_03_at_19_36_05_2x___258mrj3uwaowyhul.png

  • Collez l’URL du site Ă  connecter, puis cliquez sur VĂ©rifier.

  • Ajoutez des sous‑URLs si besoin pour ne connecter que certaines sous‑parties ou sous‑domaines (par exemple une seule langue, ou une rubrique spĂ©cifique d’un help center).

🔎 Laissez Mayday vĂ©rifier

  • Mayday contrĂŽle que l’URL est valide, que le site existe, qu’il s’agit bien d’un site accessible, et qu’un sitemap.xml est dĂ©tectĂ©.

  • Le sitemap.xml nous indique quelles pages rĂ©cupĂ©rer, et nous vĂ©rifions que les conditions techniques permettent de collecter correctement les informations du site.

⏱ Choisissez la frĂ©quence

  • SĂ©lectionnez une synchronisation toutes les semaines ou tous les mois.

  • Toutes les pages indexĂ©es seront mises Ă  jour Ă  cette frĂ©quence (ajouts, modifications, suppressions).

  • Si les informations Ă©voluent peu, privilĂ©giez tous les mois.

🔄 Lancez la premiùre synchronisation

  • Si l’URL est validĂ©e et que vous sauvegardez, la premiĂšre synchronisation peut prendre 5 Ă  10 minutes.

  • 💡 Une fois l’URL validĂ©e, un survol de la souris affiche le nombre de pages dĂ©tectĂ©es.

✅ VĂ©rifiez le statut

À la fin de la synchronisation, la source de donnĂ©es passe au statut Actif.

đŸ€–Â  Connecter un site public Ă  un agent IA


Une fois un site public connectĂ© et actif, les informations qu’il contient peuvent ĂȘtre consultĂ©es :

  • Directement via le moteur de recherche.

  • Dans les rĂ©ponses fournies par les agents IA.

Pour permettre Ă  un agent IA d’accĂ©der Ă  ces informations, il est nĂ©cessaire de lui donner explicitement accĂšs Ă  la source de donnĂ©es :

cleanshot_2025_11_03_at_19_38_17_2x___xqjfoudfu3iiwnnd.png

  1. Dans l’onglet “Sources” de l’agent IA, sĂ©lectionnez la source “Contenus Mayday”.

  2. Activez la source de données externes correspondant au site public souhaité.

Seuls les groupes ayant accĂšs Ă  cette source pourront bĂ©nĂ©ficier des informations qu’elle contient.

Pour découvrir comment personnaliser un agent IA, consultez la documentation correspondante :

⛔  Informations et limites


â„č Information importante


  • Le nombre de pages rĂ©cupĂ©rĂ©es par site est limitĂ© Ă  50 000 pages.

  • Au-delĂ  de cette limite, les pages supplĂ©mentaires ne seront pas rĂ©cupĂ©rĂ©es.

⚠ Limites à connaütre


  • De nombreux sites ne sont pas Ă©ligibles, car ils empĂȘchent la rĂ©cupĂ©ration d’informations de la maniĂšre requise, et nous ne pouvons pas contourner ces restrictions.

  • Exemples de sites inĂ©ligibles :

    • Les sites trop lourds, avec un volume trĂšs consĂ©quent de pages (exemple : https://support.apple.com/fr-fr).

    • Les Single Page Apps (SPAs), incompatibles avec ce fonctionnement.

    • Les Help Centers Zendesk, qui bloquent Ă©galement ce mode de rĂ©cupĂ©ration.

    • De nombreux autres sites protĂ©gĂ©s par des mĂ©thodes diverses ne correspondant pas au standard robots.txt.

✅  À savoir sur la vĂ©rification de l’URL


  • Certains sites inĂ©ligibles peuvent ĂȘtre bloquĂ©s dĂšs la vĂ©rification de l’URL, d’autres non. 

  • Parmi les cas dĂ©tectables dĂšs la vĂ©rification :

    • Les sites qui refusent explicitement le scraping via leur fichier robots.txt.

    • Les sites dont le sitemap met plus de 60 secondes Ă  se charger.

Ainsi, il est possible que certains sites publics soient validĂ©s mais qu’ils ne fonctionnent pas par la suite.
Pensez donc à vérifier le statut de la source de données quelques minutes aprÚs avoir lancé la synchronisation.

💡 Bonnes pratiques


  • PrivilĂ©giez une synchronisation mensuelle si le contenu du site Ă©volue peu, afin d’éviter des mises Ă  jour inutiles.

  • Utilisez des sous-URLs pour limiter le pĂ©rimĂštre (par langue ou par rubrique) et rester confortablement sous la limite des 50 000 pages.

🔭 À venir


Étendre la couverture des sites internet afin de vous permettre de connecter le plus de sites possibles.

Cet article vous a-t-il aidé ?

Contactez-nous