Ceci est une ancienne révision du document !


SolR

Se prononça solar o sòlar

Es un logicial per organizar un motor de cèrca. SolR es una basa de donadas textuala e li far besonh d'una configuracion per foncionar. Dins nòstre cas un adobament especifica a la lenga nòstra es indefugible. Mai precisament calriá dins l'absolut far un trabalh per cada dialècte.

Per configurar la basa textuala un esquema pòt èsser necesari pas obligatòri. L'esquema dona las indicacions per lo trachament de certas informacions que se pòdon identifiar. Un numero de comanda, un prètz, un resumit, un títol, eca. Basicament l'esquema es compausat de noms de camps, de tipes de camps segon la lista classica (int, float, double, date, string, …) mas en revenge per lo tèxte, la classificacion es mai precisa.
Per cada idòm es possible de fargar un tipe de donadas especific amb fòrça trachaments dessus, elision, flexion, correccion, netejament de mots non significatius, lemmatizacion, eca. Aquelas directivas son compresas dins l'esquema.
Un fichièr schema.xml es previst per cada colleccion mas un fichièr fargat automaticament per SolR pòt existir managed_schema.xml çai es pas cambiadís e per defaut es el que s'aplica.

Per ilustrar lo propaus: es possible de donar un trachament particulièr a la lenga causida per un camp de la basa textuala. Anam dire que lo camp « biografia » presenta en occitan un autor. Lo trachament d'aquèl contengut deu tenir compte de la lenga de l'escrich. Doncas lo camp biografia serà de type «text_oc». Per cada lenga, es possible de porgir:

  • las contraccions ex: contractions_ca.txt
  • los mots tròp usuals de pas indexar ex: stopword_ca.txt
  • una tièra especifica a una lenga e una grafia ex: stoptags_ja_txt
  • las trencaduras ex: hyphenations_ga.txt
  • un diccionari de lemas ex: stemdict_nm.txt
  • un diccionari especific ex: userdict_ja.txt

Se pòt pensar que la configuracion de SolR per l'occitan aduirà una soscadissa sul sicut e demandarà d'entresenhar las tièras susmencionadas.

Analisi de la lenga per SolR Catalan

Exemple de fichièr stopword_ca.txt

# Catalan stopwords from http://github.com/vcl/cue.language (Apache 2 Licensed)
a
abans
ací
ah
així
això
al
als
aleshores
algun
alguna
algunes
alguns
alhora
allà
allí
allò
altra
altre
altres
amb
ambdós
ambdues
apa
aquell
aquella
aquelles
aquells
aquest
aquesta
aquestes
aquests
aquí
baix
cada
cadascú
cadascuna
cadascunes
cadascuns
com
contra
d'un
d'una
d'unes
d'uns
dalt
de
del
dels
...