# 2.2. Procesamiento y recuperación de información

Una vez que el motor recibe la copia del documento que le remite el robot, se procede a su representación o indización. Esto es debido a que las páginas o documentos no pueden integrarse directamente en las bases de datos. Previamente **es necesario llevar a cabo un proceso de indización automática, con la finalidad de crear una representación del contenido** informativo. Esta indización puede realizarse desde diferentes enfoques, aunque **el más utilizado es el modelo que se basa en la representación de los documentos como vectores, dentro de un espacio vectorial**.

[![motor2a.png](https://libros.catedu.es/uploads/images/gallery/2022-10/scaled-1680-/motor2a.png)](https://libros.catedu.es/uploads/images/gallery/2022-10/motor2a.png)Fig. 6. Esquema de funcionamiento del proceso de captura y representación en un motor de búsqueda ([fuente original](https://www.researchgate.net/figure/Standard-Web-Search-Engine-Architecture_fig2_241625938)).

Toda esta información se almacena en grandes bases de datos, que además pueden incorporar a cada representación otros datos, como el url ([*Universal/Uniform Resource Locator*](https://csrc.nist.gov/glossary/term/uniform_resource_locator)) de cada página o documento, o dar prioridad en los vectores a algunos elementos específicos, como puedan ser los metadatos detectados.

{{@5685}}