<font size=2 face="sans-serif">Dear all,</font><br><br><font size=2 face="sans-serif">Since last year, some of our broad crawl
 jobs are disrupted by blogspot.</font><br><font size=2 face="sans-serif">Heritrix creates queues per host (aaa.blogspot.com,
bbb.blogspot.com...) instead of</font><br><font size=2 face="sans-serif">keeping them per domain (we are using
dk.netarkivet.harvester.harvesting.DomainnameQueueAssignmentPolicy).</font><br><br><font size=2 face="sans-serif">We first thought this problem was introduced
by the use of the public_suffix.dat file where blogspot.com and country
versions</font><br><font size=2 face="sans-serif">were stated as TLDs. But we still have
this problem although we took them off this list.</font><br><br><font size=2 face="sans-serif">For some jobs, the amount of discovered
blogspot queues can go up to the point it will crash the job.</font><br><br><font size=2 face="sans-serif">Does anyone have the same problem?</font><br><br><font size=2 face="sans-serif">Sara</font><br><font face="sans-serif"><hr />
<p><strong><a href="http://www.bnf.fr/fr/acces_dedies/mecenat_partenariat/s.mecenat_renovation_richelieu.html">Participez à la rénovation de Richelieu</a></strong></p>
<p style="color:#008000"><strong>Avant d'imprimer, pensez à l'environnement.</strong></p></font>