đ Introduction
Centraliser vos connaissances, câest la mission de Mayday : les gĂ©rer, les gouverner et en capitaliser la valeur pour aider vos conseillers et vos clients finaux Ă trouver la bonne information le plus rapidement possible. Cette intĂ©gration vous permet dĂ©sormais de connecter des sites publics Ă votre base de connaissances  đ
â Quelle est cette fonctionnalitĂ© ?
Il sâagit dâune nouvelle source de donnĂ©es âSite publicâ disponible dans le catalogue dâintĂ©grations de Mayday Admin (centre dâadministration). Elle complĂšte les intĂ©grations existantes (par exemple SharePoint) et permet dâindexer et de synchroniser le contenu de sites publics compatibles, afin de le rendre accessible et gouvernĂ© dans Mayday. Cette fonctionnalitĂ© sâadresse aux administrateurs qui souhaitent centraliser du contenu externe aux cĂŽtĂ©s de leurs documents internes. đ§©
đ€ Comment ça marche ?
â Ouvrez le catalogue dâintĂ©grations

Dans le catalogue dâintĂ©grations, cliquez sur Contenu externe.
â CrĂ©ez la source

Créez une nouvelle source de données et choisissez le type Site public.
đ„ DĂ©finissez les accĂšs
Définissez les groupes qui auront accÚs à cette source de données.
đŻ DĂ©finissez le pĂ©rimĂštre

Collez lâURL du site Ă connecter, puis cliquez sur VĂ©rifier.
Ajoutez des sousâURLs si besoin pour ne connecter que certaines sousâparties ou sousâdomaines (par exemple une seule langue, ou une rubrique spĂ©cifique dâun help center).
đ Laissez Mayday vĂ©rifier
Mayday contrĂŽle que lâURL est valide, que le site existe, quâil sâagit bien dâun site accessible, et quâun
sitemap.xmlest détecté.Le
sitemap.xmlnous indique quelles pages récupérer, et nous vérifions que les conditions techniques permettent de collecter correctement les informations du site.
ⱠChoisissez la fréquence
Sélectionnez une synchronisation toutes les semaines ou tous les mois.
Toutes les pages indexées seront mises à jour à cette fréquence (ajouts, modifications, suppressions).
Si les informations évoluent peu, privilégiez tous les mois.
đ Lancez la premiĂšre synchronisation
Si lâURL est validĂ©e et que vous sauvegardez, la premiĂšre synchronisation peut prendre 5 Ă 10 minutes.
đĄ Une fois lâURL validĂ©e, un survol de la souris affiche le nombre de pages dĂ©tectĂ©es.
â VĂ©rifiez le statut
à la fin de la synchronisation, la source de données passe au statut Actif.
đ€Â Connecter un site public Ă un agent IA
Une fois un site public connectĂ© et actif, les informations quâil contient peuvent ĂȘtre consultĂ©es :
Directement via le moteur de recherche.
Dans les réponses fournies par les agents IA.
Pour permettre Ă un agent IA dâaccĂ©der Ă ces informations, il est nĂ©cessaire de lui donner explicitement accĂšs Ă la source de donnĂ©es :

Dans lâonglet âSourcesâ de lâagent IA, sĂ©lectionnez la source âContenus Maydayâ.
Activez la source de données externes correspondant au site public souhaité.
Seuls les groupes ayant accĂšs Ă cette source pourront bĂ©nĂ©ficier des informations quâelle contient.
Pour découvrir comment personnaliser un agent IA, consultez la documentation correspondante :
â Informations et limites
âč Information importante
Le nombre de pages rĂ©cupĂ©rĂ©es par site est limitĂ© Ă 50âŻ000 pages.
Au-delà de cette limite, les pages supplémentaires ne seront pas récupérées.
â Limites Ă connaĂźtre
De nombreux sites ne sont pas Ă©ligibles, car ils empĂȘchent la rĂ©cupĂ©ration dâinformations de la maniĂšre requise, et nous ne pouvons pas contourner ces restrictions.
Exemples de sites inéligibles :
Les sites trop lourds, avec un volume trÚs conséquent de pages (exemple : https://support.apple.com/fr-fr).
Les Single Page Apps (SPAs), incompatibles avec ce fonctionnement.
Les Help Centers Zendesk, qui bloquent également ce mode de récupération.
De nombreux autres sites protégés par des méthodes diverses ne correspondant pas au standard robots.txt.
â  à savoir sur la vĂ©rification de lâURL
Certains sites inĂ©ligibles peuvent ĂȘtre bloquĂ©s dĂšs la vĂ©rification de lâURL, dâautres non.Â
Parmi les cas détectables dÚs la vérification :
Les sites qui refusent explicitement le scraping via leur fichier robots.txt.
Les sites dont le sitemap met plus de 60 secondes Ă se charger.
Ainsi, il est possible que certains sites publics soient validĂ©s mais quâils ne fonctionnent pas par la suite.
Pensez donc à vérifier le statut de la source de données quelques minutes aprÚs avoir lancé la synchronisation.
đĄ Bonnes pratiques
PrivilĂ©giez une synchronisation mensuelle si le contenu du site Ă©volue peu, afin dâĂ©viter des mises Ă jour inutiles.
Utilisez des sous-URLs pour limiter le pĂ©rimĂštre (par langue ou par rubrique) et rester confortablement sous la limite des 50âŻ000 pages.
đ Ă venir
Ătendre la couverture des sites internet afin de vous permettre de connecter le plus de sites possibles.