Google Archives : vers la bibliotheque universelle

septembre 8, 2008

On l’attendait depuis des années, c’est fait. Google Archives ouvre ses portes et propose plus de 50 années d’archives de journaux. Impressionnant même si le nombre de sources semble encore limité, le New York Times se taillant la part du lion dans cette bibliotheque d’un nouveau genre (voir par exemple sur la requete "Nixon" les archives qui remontent jusqu’en 1950). En France c’est Le Monde et le Point qui semblent remonter le plus régulièrement: voir sur la requête "balladur".

Toutefois il semble que l’ensemble du contenu ne soit pas issu de partenariats. Pas mal de sources semblent indexées à partir du référencement naturel des articles. Sur la requête "balladur" on peut trouver en bas de page un article de Liberation de 2007 mais contrairement au Monde il ne s’agit pas d’une page d’archive mais d’une page à imprimer dépourvue de publicité (voir ici). Dommage, aucun revenu à espérer. Même problème pour Les Echos ou je tombe sur des brêves en acces libre mais quand même monétisées par la publicité. Je retrouve avec plaisir les articles de ZDNet.fr de 2003 et comme je confirme n’avoir pas d’accord concernant ces archives j’en déduis que Google a pioché ça et là dans son index pour constituer ses archives. 

Principal avantage du système, et c’est une bonne nouvelle, Google préserve le modèle économique des éditeurs en pointant vers les pages d’archives payantes si nécessaire, vers la page en accès libre si disponible. D’où l’intérêt de rendre visible le chapô ou résumé de ses articles quand ils sont payants (ce que nous avions fait aux Echos mais Google ne semble pas l’avoir identifié). Selon Techcrunch Marissa Meyer annonce la mise à disposition d’archives numérisées par Google mais je n’ai pu trouver des exemples de ce type, la plupart des sources disposant de leurs propres archives. 

Au final Google Archives se comporte ni plus ni moins comme une extension de Google News à un détail près puisqu’il comporte aussi des liens vers Google Books comme on peut le voir sur cette requête (toujours"nixon", troisième et cinquième paragraphe). 

Le résultat est, je dois dire, impressionnant, et pourrait donner un peu d’oxygène au marché des archives payantes auparavant chasse gardée de quelques prestataires privés. Ici les éditeurs restent maître de la commercialisation de leurs archives donc de leur politique de prix, Google se rémunère comme d’habitude sur la recherche. Bien vu, l’initiative ne devrait moins se prêter à la polémique que Google News à ses débuts.

About these ads

6 Responses to “Google Archives : vers la bibliotheque universelle”

  1. Julien Says:

    Très pratique, même simplement pour retrouver des articles déjà en ligne.

    Le classement chronologique est très utile. Cela va permettre de faire plus aisément des suivi de popularité de concept et de termes dans la presse.

    On peut par exemple tracer la montée en puissance du terme web : vers 1994, c’est rarement pour "le" web, mais au sens propre, et aussi le Water Web Scandal !

    Mais on trouve quand même des scoops :

    "December 1, 1994
    Beginning today the Prodigy Services Company will allow some of its two million on-line information subscribers to connect to the popular Internet services known as the World Wide Web."

    "The World Wide Web, a collection of thousands of multimedia data bases, is the fastest-growing service on the global Internet and is particularly popular with businesses"

    Lisez-le, c’est un petit morceau de nostalgie…

    http://query.nytimes.com/gst/fullpage.html?res=9C0CEFD91130F932A35751C1A962958260

  2. narvic Says:

    Il me semble comprendre, Emmanuel, que les partenariats évoqués concerne la numérisation des archives papier des journaux, dans le cadre d’un programme Google équivalent à celui mené pour la numérisations des livres : c’est ça, je crois, la nouveauté.

    Au lancement du service en 2006, Google News Archives Search ne faisait qu’indexer les fonds des archives déjà numérisées du New York Times et du Washington Post. Cette fois, c’est Google qui "pilote" la numérisation, en partenariat avec ProQuest and Heritage, spécialiste de la numérisation, avec les journaux et certaines universités.

    Plusieurs millions de pages seraient ainsi désormais accessibles en version scannée, avec une interface de navigation au sein du journal comparable à celle de GoogleBooks, et qui est assez bluffante (copie d’écrans chez moi ;-) )

    Je n’ai pas trouvé trace que le programme de numérisation concerne d’autres journaux que nord-américains (USA et Canada), mais peut-être que ça viendra. ;-)


  3. En clair Google reste en aval et s’occupe de la distribution vers les revendeurs, sauf dans le cas ou il prend en charge la numérisation. Je n’ai pas vu de source française scannée non plus.

  4. ZeFredd Says:

    Surprenant, comme d’habitude ;)

    Au passage, parmi les sources de Presse française, les premières que j’ai pu trouver sont AgoraVox, Le site de la ville de Lille et Boursorama…

    Ce qui me surprend d’avantage c’est que PressDisplay y soit indexé… (recherche MITTERRAND en 2008) que la source est citée comme étant "Corrections and Clarifications" avec la mention payante, mais qu’en réalité il s’agit d’un article du Guardian du 11 aout 2008, en accès libre, dans lequel le Guardian présente ses excuses pour des coquilles à répétition… Il n’y a pas que l’OCR à améliorer ;)

    Le lien en question est ici :

    http://news.google.com/archivesearch/url?sa=t&source=archive&ct=res&cd=21-0&url=http%3A%2F%2Fwww.pressdisplay.com%2Fpressdisplay%2Fviewer.aspx%3Fissue%3D10202008081100000000001001%26page%3D20%26article%3D6ff7bf01-794c-4db4-b93d-e535e66854f3%26key%3DFJEYlbLkPI%252BOWLXB2OfDag%253D%253D%26feed%3Dgp&ei=h_vGSJHfL4L43AbjudnZCA&usg=AFQjCNGQy5-70kI8ufO9c-0ibyIapc-v2w&sig2=36B3gn7f-3XXo-ETf1Jx1g

  5. ZeFredd Says:

    Oups, désolé d’avoir explosé la mise en page avec ce lien google qui n’en finit pas !!! :(

  6. kada Says:

    recherche archives du journal midi libre daté du 26.05.2008 a Bagnols sur cèze.


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

%d bloggers like this: