Un projet, des données

Voilà donc quelques temps que nous travaillons sur notre crawler, que nous avons entamé des campagnes d'exploration du web, à la découverte des différents territoires qui le composent. Nous avons pu crawler des communautés, établir les relations qui existent en leur sein, et ces données ont alors pu être utilisées par des organisations comme WebAtlas pour établir des cartographies. Il nous semblait cependant dommage que ces données ne puissent pas permettre d'aller plus loin, et ne puissent pas servir de manière plus interactives aux utilisateurs.

Quels utilisateurs ?

Nous avons pris l'habitude de mener des campagnes de crawl quoi soient axées soit sur une thématique, soit sur une communauté précise. Dans les deux cas, nous nous retrouvons avec un corpus très ciblé, au sein duquel tous les sites entretiennent des relations, et traitent de sujets proches. L'idée serait donc de mettre en place un outil au service des webmasters de ces sites, qui leur permette de consolider leur communauté, de partager, échanger et rechercher au sein de leur propre corpus.

Un premier prototype

Nous avons donc décidé de mettre en place un premier prototype qui puisse répondre à ces enjeux, et nous vous proposons d'en faire un petit tour d'horizon.

Rechercher

La fonctionnalité la plus puissante est sans doute celle de recherche.

moteur_general.png

Au lieu d'effectuer des recherches à l'échelle du web, il devient possible de ne rechercher qu'au sein de sa communauté. Dans le cas d'une recherche thématique, les résultats sont donc extrêmement pertinents et ciblés par rapport à un moteur de recherche classique. Prenons l'exemple d'une recherche au sein du corpus Solidarité Internationale.

moteur_recherche.png

Le portail indique combien de résultats ont été trouvés, et les affichent du plus pertinent par rapport à la recherche jusqu'au moins pertinent. On affiche vingt résultats par page, et pour chacun d'entre eux nous avons différentes informations.

  • Un aperçu de la page d'accueil du site concerné
  • Le titre de la page trouvée
  • Le nom du site dans lequel se trouve cette page
  • Un indicateur de la popularité du site au sein de la communauté

On remarque dans ce cas précis l'orientation tout particulière du premier résultat trouvé.

Actualité

Une communauté vit au rythme des informations publiées sur ses différents sites.

actualite_general.png

Nous avons donc jugé intéressant de permettre aux administrateurs du portail d'ajouter les flux RSS qu'ils jugeront les plus intéressants, et de les agréger. L'aggrégation des flux est alors visible dans l'espace actualités, est chaque article est sélectionnable pour être lu.

actualite_article.png

Pour chaque article est donné :

  • Le lien vers le document sur le site d'origine
  • Son titre
  • L'article en lui-même

Communauté

Afin que tout le monde se connaisse, et puisse créer des relations nouvelles au sein de la communauté, un espace est dédié à des fiches descriptives des différents acteurs.

communaute.png

Chaque fiche peut donner accès à diverses informations telles que

  • Le nom de l'acteur
  • Sa description
  • Un type, une catégorie, ...
  • Un lien vers le site

Porte Documents

Dernier espace accessible à tous les utilisateurs, le porte documents est un lieu où sont mis en communs les fichiers qui peuvent être utiles à toute la communauté.

porte_documents.png

Chaque fichier peut être commenté, pour que tous les utilisateurs puissent apporter des informations complémentaires, des précisions, ou donner un avis sur la pertinence du document.

Espace de travail

L'espace de travail n'est accessible qu'aux utilisateurs ayant un compte sur la plateforme. Il permet de gérer la liste des sites présents dans la communauté, ainsi que les différents flux RSS. On peut choisir d'activer ou désactiver ces derniers, au cas par cas.

workspace.png

Administration

Il existe enfin un espace administration, permettant de gérer différents aspects tels que les utilisateurs, les fichiers du porte documents, ou les fiches des différents acteurs.

Conclusions

Nous ne pouvons diffuser l'adresse de ce prototype, le serveur l'hébergeant étant trop poussif. Nous pouvons cependant déjà considérer que cet essai a de nombreuses qualités, notamment en ce qui concerne la qualité des résultats du moteur de recherche. Nous n'avons cependant pas encore reçu de retours utilisateurs suffisants pour considérer que ce prototype est fonctionnel en l'état, et peut être utilisé à grande échelle. La prochaine étape consistera donc à travailler avec des utilisateurs potentiels pour définir les corrections et améliorations à mettre en place.