Necesito un buen libro para ponerme las pilas en recuperación de información, especialmente en buscadores y en temas de metadatos.
Justo andaba trasteando en Amazon, bailando entre la segunda edición de Understanding Search Engines y el clásico de Baeza-Yates, cuando de golpe me he topado con esto:

Mola, eh?
Bueno, a lo que iba, ¿Algún documentalista/experto en RI me recomienda algo bueno y asequible para un no-iniciado como yo?


Javier, me suscribo a tu petición, es un tema que me interesa mucho y en el que, salvo contadas excepciones, se siguen haciendo las cosas bastante mal.
Un saludo.
Hola,
El libro clásico, a la vez que 'modern', de Baeza Yates es muy bueno, pero quizá no tanto para tus objetivos. El de Baeza, como la mayoría de los libros de RI verdadera, está bien para entender los modelos matemáticos y algorítmicos de la RI, pero si lo que te interesa es su aplicación SEO... no tienen tanta utilidad. Es decir, uno puede saber mucho de RI y poco de posicionamiento (paradoja). Sería algo así como que un libro de RI es bueno para crear un buscador, y uno de SEO para mejorar tu posicionamiento en motores existentes, mediante 'trucos' etc.
Aún así, si te interesa la RI, para empezar (y gratis) está el de Rijbergen, que a pesar de su antigedad es bastante completo:
http://www.dcs.gla.ac.uk/Keith/Preface.html
Ah, aquí tienes una reseña del otro libro que comentas:
http://docdigital.typepad.com/servicio_de_alerta/2006/07/understa...
Gracias, Yusef!
La verdad es que la parte SEO no es mi prioridad ahora mismo. Es más la parte de "construir" un buscador (y su faceta matemática, sí).
Había leido la reseña de Servicio de Alerta, pero me ha parecido demasiado escueta como para decidir. El otro que propones se mehace muy antiguo, no? (1975!).
De nada.
Entonces sí te recomiendo libros de RI pura.
Respecto a lo de anticuado del otro libro, en absoluto! Los fundamentos de la RI están muy asentados desde hace tiempo, y de hecho de algo que se lamenta la comunidad científica es del poco avance que se ha producido desde su boom (70's y 80's). Por tanto, el libro de Rijbergen es una buena introducción al tema.
Por ejemplo, la indización de semántica latente, que ahora está más de moda y que hasta google parece haber empezado a utilizar ahora [1], es un modelo del año 1990. El modelo más utilizado (por todos los buscadores) es el de espacio vectorial de Salton [2], que data de los años 70. El siguiente más usado puede que sea el probabilístico, que es poco posterior. El de lógica difusa, más moderno, hasta donde sé tiene poca implementación práctica. Y por último, el modelo cognitvo (muy relacionado con la HCI) no tiene prácticamente implementación real ni supone un modelo en sí mismo (es complementario a otros).
En resumen, las cosas han avanzado bien poco, así que te recomiendo clásicos con mayúsculas. El de Baeza, por ejemplo, es bueno porque resume bastante bien muchos de esos modelos.
[1] http://irsweb.blogspot.com/2005/02/indizacin-por-semntica-latente...
[2] http://www.cs.cornell.edu/annual_report/1996/beginning/salton.htm...
Con comentaristas así, da gusto, eh?
Muchas gracias, Yusef. Te debo unas cañas :-)