La recherche SharePoint

Il y aurait beaucoup d’informations à communiquer sur le fonctionnement de la recherche SharePoint. L’objet de cet article est de présenter les principales notions sur ce thème, sans chercher l’exhaustivité.

La recherche SharePoint repose essentiellement sur un programme d’analyse des documents (“Crawl” en anglais) et un programme de requête (“Query”).

Le programme de “crawl” (mssearch.exe) analyse les documents pour en extraire les propriétés et les mots contenus.

Les propriétés sont le titre, l’auteur, l’objet, la date de création, etc. du document. Les spécialistes préfèrent le terme de métadonnées.

Donc, le crawler indexe les propriétés d’un document, ainsi que tout son contenu.

Il existe toutefois des limites. En effet, le crawler indexe une partie des grands fichiers.

Le service de recherche SharePoint Server Search 14 exécute le programme C:\Program Files\Microsoft Office Servers\14.0\Bin\mssearch.exe.

Index créé et utilisé par la recherche SharePoint

Un index est un ensemble de fichiers qui contiennent les mots analysés. Ensuite, l’index associe l’URL du document aux mots indexés. Vous retrouvez ainsi les documents associés au mot recherché.

Pour des raisons de performance, l’index du contenu se trouve sur le disque dur, et non pas en bases de données. Sur des serveurs virtualisés, vous devez rattacher l’index à un disque physique afin de ne pas dégrader les performances.

Vous devez déplacer l’index sur un disque qui a un un compteur Avg Disk Queue Length faible. Attention ! Il faut tester et planifier ces opérations avant de le faire en production, notamment avec un index volumineux.

Déplacer l’index

Pour déplacer l’index grâce à la Central Administration, cliquez sur Application Management puis Manage service applications et sur l’application de service de la recherche. Dans cette application de service de la recherche, cliquez sur le bouton Modify sous Search Application Topology.

Ensuite, pour chaque composant de recherche (par exemple Crawl Component 0 / Query Component 0), éditez les propriétés (Edit Properties) et changez le chemin de l’index.

Puis cliquez sur le bouton Apply Topology Changes.

La compréhension de la recherche SharePoint nécessite d’expliciter les notions de propriétés analysées et propriétés gérées.

Propriétés analysées de la recherche SharePoint

Au moment de l’indexation, l’analyse du contenu découvre ce qu’on appelle les propriétés analysées. La base de données d’analyse (Search Service Application Crawl Store DB) stocke les propriétés analysées.

Pour prendre connaissance des propriétés analysées sur votre site, allez sur Central Administration > Application Management > Manage service applications > Application de service de la recherche > Metadata properties puis Crawled Properties (dans le menu haut):

Recherche SharePoint
Propriétés analysées

Propriétés analysées Office

Afin de mieux comprendre leur intérêt, le tableau ci-dessous explicite le rôle des propriétés analysées de la catégorie Office.

Recherche SharePoint
Explications des propriétés analysées pour Office

Vous voyez qu’un nom complet, par exemple Office:4(Text), identifie une propriété analysée.

Explications des propriétés analysées Office

Office est la catégorie qui se réfère aux documents Microsoft Office. Il existe d’autres catégories comme Basic qui se réfère notamment au système de fichier, Mail pour la messagerie, Web pour les données des sites web, People, SharePoint, etc.

Vous remarquerez le type de données entre parenthèses. Dans cet exemple, Text pour une ligne de texte. Il existe aussi Integer, Date and Time, Yes/No, Binary Data, etc.

Le nombre (4) est le nom de la propriété analysée.

Office:4(Text) est une propriété analysée native de SharePoint. Elle contient les données de la propriété Auteur (Author) des documents Office.

Vous trouverez aussi des propriétés analysées qui sont formatées un peu différemment. Par exemple, Departement(Text). Le type de données (Text) est toujours présent. Par contre, la catégorie n’apparaît pas dans le nom complet. Il faut cliquer sur le nom de la propriété analysée pour connaître sa catégorie.

Manipuler les propriétés analysées

Avec le temps de nombreuses propriétés analysées ne sont associées à aucune donnée mais elles sont toujours présentes dans la base. Vous pouvez les supprimer en allant sur Central Administration > Application Management > Manage service applications > Application de service de la recherche > Metadata properties puis Categories (dans le menu haut). Ensuite, modifiez la catégorie de votre choix. Cochez Delete all unmapped crawled properties et cliquez sur le bouton OK.

Recherche SharePoint
Supprimer toutes les propriétés analysées non mappées

De nombreuses propriétés analysées, non mappées, devraient disparaître. Malgré cette manipulation, il peut encore subsister certaines propriétés analysées non mappées.

Recherche SharePoint
Propriétés analysées non-mappées

Cliquez sur un de ces propriétés analysées pour la modifier.

Lorsque la case à cocher Include values for this property in the search index est cochée, cela signifie que la recherche SharePoint peut être faite dans les valeurs de cette propriété analysée.

Si la case est cochée, une recherche sur l’auteur “Raimbaud” renverra les éléments avec  la propriété d’auteur “Raimbaud”.

Si la case est décochée, la requête devra être sous la forme: “auteur:Raimbaud” pour trouver les mêmes éléments.

Recherche SharePoint
Inclure des valeurs pour cette propriété dans l’index de recherche

L’ajout de propriétés inutiles peut avoir des répercussions négatives sur les performances et la pertinence des recherches.

Aussi, décochez la case Include values for this property in the search index et cliquez sur le bouton OK. Refaites-le pour toutes les propriétés analysées de la catégorie.

Recherche SharePoint
Propriétés analysées non-mappées non-indexées

Modifiez la catégorie concernée: cochez à nouveau Delete all unmapped crawled properties:

 

Recherche SharePoint
Supprimer toutes les propriétés analysées non mappées

Vous pouvez supprimer la catégorie qui est vide.

Recherche SharePoint
Suppression d’une catégorie de recherche vide

Propriétés gérées dans la recherche SharePoint

De prime abord, la notion de propriété gérée peut sembler superflue.

En effet, toutes les métadonnées des documents ont été collectées à travers les propriétés analysées. Ensuite, il faut associer (“mapper”) une propriété analysée à une propriété gérée car les requêtes sont faites sur les propriétés gérées.

La technique des propriétés gérées (“Managed properties”) réconcilie des propriétés avec des noms différents dans les documents.

Selon le type de document, le crawler assigne l’auteur d’un document dans la  métadonnée nommée Auteur ou Office:4(Text) ou encore Mail:6(Text).

Le rôle de la propriété gérée est d’être une interface pour faire le lien entre toutes ces propriétés analysées.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.