<font size=2 face="sans-serif">Dear All,</font><br><br><font size=2 face="sans-serif">In February, we did a lot of tests :
NAS Heritrix IIPC, Instagram and Twitter. We hope to finish all the analysis
in March.</font><br><br><font size=2 face="sans-serif">During our last tests with NAS heritrix
IIPC, we found that some images are missing in the crawl log. Our first
hypothesis is these images, crawled by the current version of Heritrix,
are noise because they come from big images repository and the link with
the seed domain is not obvious. Our second hypothesis is : the new extractor
doesn't identify them.</font><br><font size=2 face="sans-serif">Otherwise we noticed that Heritirx (the
current version and IIPC version) won't be able to crawl some responsive
images : that's why some small images are missing on the home of news websites.</font><br><br><font size=2 face="sans-serif">We tried to improve our crawling regarding
Instagram profil page. We used an command line tool: Instalooter (</font><a href=https://instalooter.readthedocs.io/en/latest/><font size=2 face="sans-serif">https://instalooter.readthedocs.io/en/latest/</font></a><font size=2 face="sans-serif">)
to extract meta-datas (urls, desc, comments, ...) about the Instagram post
as JSON files.</font><br><font size=2 face="sans-serif">Currently, we add thumbnails urls and
pictures urls to the seed list, to crawl them. In the archives, we have
the profile page with the 12 last posts as thumbnails. To have a successful
Instagram crawl, we have to crawl the post page and be abble to show the
post meta-datas.</font><br><br><font size=2 face="sans-serif">Since Twitter has changed its tabs,
we have problems with the crawl of the hashtags : the new tab </font><a href=https://twitter.com/hashtag/Recherche><font size=2 face="sans-serif">https://twitter.com/hashtag/Recherche</font></a><font size=2 face="sans-serif"><b>?f=live</b>isn't crawl if it isn't a seed URL ou an additionnal URL. And in the wayback,
the new tab redirects to the home of the hashtag.</font><br><br><br><font size=2 face="sans-serif">Best regards,</font><br><br><font size=2 face="sans-serif">The BnF digital legal deposit team</font><font face="sans-serif"><hr />
<p>Exposition <strong><em><a href="https://www.bnf.fr/fr/agenda/claudine-nougaret-degager-lecoute">Claudine Nougaret - dégager l'écoute. Le son dans le cinéma de Raymond Depardon </a></em></strong> - jusqu'au 15 mars 2020 - BnF - François-Mitterrand</p>
<p style="color:#008000"><strong>Avant d'imprimer, pensez à l'environnement.</strong></p></font>