<font size=2 face="sans-serif">Hello Peter,</font><br><br><font size=2 face="sans-serif">That's great news, just the start of
a big aventure!</font><br><font size=2 face="sans-serif">About everything should happen during
the first broad crawl!</font><br><br><font size=2 face="sans-serif">10 000 domains per job is quite big,
we do only 5 000 but you probably have big crawlers.</font><br><br><font size=2 face="sans-serif">If you only had a single crawler started
on the Snaphsot channel, that's normal that only one job started.</font><br><font size=2 face="sans-serif">That's very cautious. We also do this
to make sure that we don't fail about 1000 jobs in a row...</font><br><br><font size=2 face="sans-serif">Grey dot with no hostname means that
your job is over and being post-processed with data transferred to the
arc repository.</font><br><font size=2 face="sans-serif">To check on this, look at the end of
your HarvesController log file.</font><br><font size=2 face="sans-serif">If everything went well, you can start
another crawler, see if you are crawling well, and then launch your other
crawlers.</font><br><br><font size=2 face="sans-serif">Job generation can be quite long.</font><br><br><font size=2 face="sans-serif">Best,</font><br><font size=2 face="sans-serif"><br>Sara</font><br><br><br><br><br><br><font size=1 color=#5f5f5f face="sans-serif">De :      
 </font><font size=1 face="sans-serif">"Peter Svanberg"
<Peter.Svanberg@kb.se></font><br><font size=1 color=#5f5f5f face="sans-serif">A :      
 </font><font size=1 face="sans-serif">"netarchivesuite-users@ml.sbforge.org"
<netarchivesuite-users@ml.sbforge.org></font><br><font size=1 color=#5f5f5f face="sans-serif">Date :      
 </font><font size=1 face="sans-serif">13/09/2019 18:03</font><br><font size=1 color=#5f5f5f face="sans-serif">Objet :    
   </font><font size=1 face="sans-serif">[Netarchivesuite-users]
NAS broad crawl questions</font><br><font size=1 color=#5f5f5f face="sans-serif">Envoyé par :    
   </font><font size=1 face="sans-serif">"NetarchiveSuite-users"
<netarchivesuite-users-bounces@ml.sbforge.org></font><br><hr noshade><br><br><br><font size=3 face="Calibri">This Wednesday at 11:02 we started our
first NAS broad crawl, tadaa! (Pär has pictures showing Thomas and I pressing
the mouse button, clicking on “Activate”.)</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">It started well, with the job creation
process. The first job, though, contained only one domain – maybe because
it was special, with lots of non-default seeds. Then there was job two,
containing 9999 domains, and then the process continued, with 10000 domains
in each job.</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">After that, the first snapshot job started
running. But after it was finished, no more snapshot jobs was started.</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">Later, our selective harvests started and
run as scheduled. But when they were finished, nothing seems to happen
in the job finishing and job starting area. The “All Running Jobs” page
just contains job rows with a grey dot (crawl finished) and no host name.
But the job creation process continues, with now soon 100 jobs with 10000
domains each.</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">1)     Do you have any hints
on what could have happened? Is the admin host so occupied with job creation
that it can’t handle anything else? But it wasn’t during the first hours.
Where could we look to find out what could be wrong? (In log files, of
course, but what should we look for?)</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">We will let the job creation be finished
(which will happen approximately Sunday after 18) and see what then happens.</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">Then, concerning starting a broad crawl:</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">2)     We were advised to just
have one harvester process running when the snapshot harvest is activated,
which we did. But when could more processes be started? After the first
snapshot job is started? Or should we wait until all jobs are created?</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri">Regards,</font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Arial">-----<br><br>Peter Svanberg<br>Technical officer<br>Digital Collections Department, Newspapers, Radio and Television Division</font><font size=3 face="Calibri"><br></font><font size=3 face="Arial"><br>National Library of Sweden<br>PO Box 5039 <br>SE-104 51 Stockholm<br>Visits: Karlavägen 100, Stockholm <br>Phone: +46 10 709 32 78</font><font size=3 face="Calibri"><br></font><font size=3 face="Arial"><br>E-mail</font><font size=3 face="Calibri">: </font><font size=3 face="Arial">peter.svanberg@kb.se<br>Web</font><font size=3 face="Calibri">: </font><a href=www.kb.se><font size=3 face="Arial">www.kb.se</font></a><font size=3 face="Calibri"><br></font><br><font size=3 face="Calibri"> </font><br><font size=3 face="Calibri"> </font><tt><font size=2>_______________________________________________<br>NetarchiveSuite-users mailing list<br>NetarchiveSuite-users@ml.sbforge.org<br></font></tt><a href="https://ml.sbforge.org/mailman/listinfo/netarchivesuite-users"><tt><font size=2>https://ml.sbforge.org/mailman/listinfo/netarchivesuite-users</font></tt></a><tt><font size=2><br></font></tt><br><font face="sans-serif"><hr />
<p><strong><em><a href="https://www.bnf.fr/fr/actualites/journees-europeennes-du-patrimoine-2019">Journées européennes du patrimoine 2019</a></em></strong> - Samedi 21 et dimanche 22 septembre sur les sites de la BnF</p>
<p style="color:#008000"><strong>Avant d'imprimer, pensez à l'environnement.</strong></p></font>