<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif;" dir="ltr">
<p>Hi Peter,</p>
<p><br>
</p>
<p>Which queueAssignmentPolicy are you using? This is defined in your crawler-beans template. We use</p>
<p></p>
<pre style="word-wrap: break-word; white-space: pre-wrap;">dk.netarkivet.harvester.harvesting.SeedUriDomainnameQueueAssignmentPolicy</pre>
<p></p>
<p>which is coded so that in-line images are counted as belonging to the same quota as the seed url from which they originate. This is important </p>
<p><br>
</p>
<p></p>
<ol style="margin-bottom: 0px; margin-top: 0px;">
<li>In snapshot harvests because many domains use the same image hosting and so they each need a separate quota, but also<br>
</li><li>Selective harvests, because otherwise you get a separate quota for the image-hosting domain so you may end up going a long way over your overall job quota.</li></ol>
<br>
The <span>SeedUriDomainnameQueueAssignmentPolicy should be working in 5.4.2 (there were some further small fixes to it in 5.5).</span>
<p></p>
<p><br>
</p>
<div id="Signature">
<div name="divtagdefaultwrapper" style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:; margin:0">
<div>--</div>
<div>Colin Rosenthal PhD</div>
<div>Senior IT Consultant</div>
<div>Royal Danish Library (Aarhus)</div>
</div>
</div>
<br>
<br>
<div style="color: rgb(0, 0, 0);">
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> NetarchiveSuite-users <netarchivesuite-users-bounces@ml.sbforge.org> on behalf of Bjarne Andersen <bja@kb.dk><br>
<b>Sent:</b> Monday, March 18, 2019 11:06 AM<br>
<b>To:</b> netarchivesuite-users@ml.sbforge.org<br>
<b>Subject:</b> Re: [Netarchivesuite-users] NAS/Heritrix doesn't obey byte limits</font>
<div> </div>
</div>
<div>
<div style="">
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">I wonder weather the logic around limits and domains have changed at some point so that objects that are in-lined (like images) are counted as belonging to a specific
 domain thus the limit will be reached not only by objects from the specific domain Itself but most likely sooner by other in-lined objects from other domains. I know this was a feature-request in older versions of NetarchiveSuite but I haven’t followed the
 development that close in later years.</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"> </span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Domains going over the limit could be a result of very large objects fetched as some of the last objects from that domain (e.g. a 2Gb video-file) – the crawl.log should
 reveal that.</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"> </span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Best</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Bjarne</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"> </span></p>
<div>
<div style="border:none; border-top:solid #E1E1E1 1.0pt; padding:3.0pt 0cm 0cm 0cm">
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<b><span style="font-size:11.0pt; font-family:"Calibri",sans-serif">From:</span></b><span style="font-size:11.0pt; font-family:"Calibri",sans-serif"> NetarchiveSuite-users <netarchivesuite-users-bounces@ml.sbforge.org>
<b>On Behalf Of </b>Tue Hejlskov Larsen<br>
<b>Sent:</b> Monday, March 18, 2019 10:07 AM<br>
<b>To:</b> netarchivesuite-users@ml.sbforge.org<br>
<b>Subject:</b> Re: [Netarchivesuite-users] NAS/Heritrix doesn't obey byte limits</span></p>
</div>
</div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Hello Peter</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"> </span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">What does your crawllogs tell you?</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"> </span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Best regards</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Tue</span></p>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-US" style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"> </span></p>
<div>
<div style="border:none; border-top:solid #E1E1E1 1.0pt; padding:3.0pt 0cm 0cm 0cm">
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<b><span style="font-size:11.0pt; font-family:"Calibri",sans-serif">From:</span></b><span style="font-size:11.0pt; font-family:"Calibri",sans-serif"> NetarchiveSuite-users <<a href="mailto:netarchivesuite-users-bounces@ml.sbforge.org" style="color: blue; text-decoration: underline;">netarchivesuite-users-bounces@ml.sbforge.org</a>>
<b>On Behalf Of </b>Peter Svanberg<br>
<b>Sent:</b> Monday, March 18, 2019 12:07 AM<br>
<b>To:</b> <a href="mailto:netarchivesuite-users@ml.sbforge.org" style="color: blue; text-decoration: underline;">
netarchivesuite-users@ml.sbforge.org</a><br>
<b>Subject:</b> [Netarchivesuite-users] NAS/Heritrix doesn't obey byte limits</span></p>
</div>
</div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
<div>
<div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
Hello, NAS users and others!</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
We are experiencing a very strange behavior from NAS/Heritrix (see attached Excel file, with comments):</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
The harvests reports says ”Stopped due to … byte/object limit reached" at very different levels – sometimes much above (more than five times the limit), sometimes much below the limit. We fail to see any pattern in this, it seems more or less random.</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
What are we doing wrong? Is it some error in the harvest template? (Attached below each table.)</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
Or, if it is some kind of bug, are there workarounds?</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
We would much appreciate any hints, as this is quite a problem for us, both for the on-going selective harvests and the upcoming big snapshot run!</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
(We are running version 5.4.2, I hope that it doesn’t affect this problem, as we can’t upgrade now.)</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
Best regards,</p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
<span lang="EN-GB">-----<br>
<br>
Peter Svanberg<br>
Technical officer<br>
Digital Collections Department, Newspapers, Radio and Television Division <br>
<br>
National Library of Sweden<br>
<a href="" style="color: blue; text-decoration: underline;">PO Box 5039</a> <br>
<a href="" style="color: blue; text-decoration: underline;">SE-104 51 Stockholm</a><br>
Visits: <a href="" style="color: blue; text-decoration: underline;">Karlavägen 100, Stockholm </a><br>
<a href="" style="color: blue; text-decoration: underline;">Phone</a>: +46 10 709 32 78<br>
<br>
E-mail: <a href="mailto:peter.svanberg@kb.se" style="color: blue; text-decoration: underline;">peter.svanberg@kb.se</a><br>
Web: <a href="http://www.kb.se/" style="color: blue; text-decoration: underline;">www.kb.se</a></span></p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
<div>
<p style="margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;">
 </p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</body>
</html>