<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p
        {mso-style-priority:99;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
tt
        {mso-style-priority:99;
        font-family:"Courier New";}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
span.apple-style-span
        {mso-style-name:apple-style-span;}
span.E-postmall23
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="SV" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">(Should have been ”how old the oldest revisit target VALUES IN recent warc files” i.e. are there long-time dependencies?)<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">I repeat the questions, corrected and gathered:<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">1)      Do you use deduplication for snapshot harvests (broad crawls)?<br>
2)      Do you use deduplication for selective (focused) harvests?<br>
3)      Which matching method do you use – DIGEST or URL?<br>
4)      Do you “restart” the deduplication at intervals? How long intervals?<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">5)     How much space do you save – just approximately?<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">When looking at the code for the choices URL or DIGEST  for matching method it seems as the choice shouldn’t affect the
 result – the difference is only which field is used for the index lookup, booth must still match (or almost match, for URL). But maybe I’ve missed something? Or else, why this choice? Depends on choice of index database? (Not important, I’m just curious.)<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">Regards,<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US">Peter<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-GB" style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1F497D;mso-fareast-language:EN-US"><o:p> </o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span style="font-size:11.0pt;font-family:"Calibri",sans-serif">Från:</span></b><span style="font-size:11.0pt;font-family:"Calibri",sans-serif"> Peter Svanberg <Peter.Svanberg@kb.se>
<br>
<b>Skickat:</b> den 13 januari 2020 23:06<br>
<b>Till:</b> netarchivesuite-users@ml.sbforge.org<br>
<b>Ämne:</b> Re: [Netarchivesuite-users] Questions about deduplication (and reduplication)<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">Thanks, Sara!<o:p></o:p></p>
<div>
<div>
<p class="MsoNormal"><span class="apple-style-span">So, when reduplicating, e.g. at Wayback or Pyweb usage, all potential revisit target files must be reachable – not a problem? Kristinn mentioned that generating indexes (of content) can take much longer as
 it have to look up in url indexes and open a lot of files. Something you (or others) have experienced?</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><br>
<br>
<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><span class="apple-style-span">Do you have any idea of how old the oldest revisit target to recent warc files could be? Five, maybe ten years, then?</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><br>
<br>
<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">And I add a fifth question:<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><br>
<br>
<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">5) How much space do you save – just approximately.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><br>
<br>
<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">      Peter<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</div>
<div>
<p class="MsoNormal"><br>
<br>
<o:p></o:p></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<p class="MsoNormal" style="margin-bottom:12.0pt">13 jan. 2020 kl. 17:47 skrev "<a href="mailto:sara.aubry@bnf.fr">sara.aubry@bnf.fr</a>" <<a href="mailto:sara.aubry@bnf.fr">sara.aubry@bnf.fr</a>>:<o:p></o:p></p>
</blockquote>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<p class="MsoNormal"><span style="font-family:"Tahoma",sans-serif"></span><span style="font-size:10.0pt;font-family:"Arial",sans-serif">Hi Peter,</span><br>
<br>
<span style="font-size:10.0pt;font-family:"Arial",sans-serif">For BnF,</span><br>
<span style="font-family:"Calibri",sans-serif">1) yes</span><br>
<span style="font-family:"Calibri",sans-serif">2) you probably mean focused crawls: yes
</span><br>
<span style="font-family:"Calibri",sans-serif">3) URL</span><br>
<span style="font-family:"Calibri",sans-serif">4) Only when we have a major change in the crawler or the data format. Which means, the least possible.</span><br>
<span style="font-family:"Calibri",sans-serif">Because it really save a lot of space, and also because we don't care about intervals between WARC files: that's why WARC revisit records were made for.</span><br>
<span style="font-family:"Calibri",sans-serif">Deduplication also sometimes incidentally restarts when the previous capture of a harvest is not finished (either at crawl stage or post-processing stage) or crashed.</span><br>
<br>
<span style="font-family:"Calibri",sans-serif">Best,</span><br>
<br>
<span style="font-family:"Calibri",sans-serif">Sara</span><br>
<br>
<br>
<br>
<br>
<span style="font-size:7.5pt;font-family:"Arial",sans-serif;color:#5F5F5F">De :        </span><span style="font-size:7.5pt;font-family:"Arial",sans-serif">"Peter Svanberg" <<a href="mailto:Peter.Svanberg@kb.se">Peter.Svanberg@kb.se</a>></span><br>
<span style="font-size:7.5pt;font-family:"Arial",sans-serif;color:#5F5F5F">A :        </span><span style="font-size:7.5pt;font-family:"Arial",sans-serif">"<a href="mailto:netarchivesuite-users@ml.sbforge.org">netarchivesuite-users@ml.sbforge.org</a>" <<a href="mailto:netarchivesuite-users@ml.sbforge.org">netarchivesuite-users@ml.sbforge.org</a>></span><br>
<span style="font-size:7.5pt;font-family:"Arial",sans-serif;color:#5F5F5F">Date :        </span><span style="font-size:7.5pt;font-family:"Arial",sans-serif">13/01/2020 17:31</span><br>
<span style="font-size:7.5pt;font-family:"Arial",sans-serif;color:#5F5F5F">Objet :        </span><span style="font-size:7.5pt;font-family:"Arial",sans-serif">[Netarchivesuite-users] Questions about deduplication (and reduplication)</span><br>
<span style="font-size:7.5pt;font-family:"Arial",sans-serif;color:#5F5F5F">Envoyé par :        </span><span style="font-size:7.5pt;font-family:"Arial",sans-serif">"NetarchiveSuite-users" <<a href="mailto:netarchivesuite-users-bounces@ml.sbforge.org">netarchivesuite-users-bounces@ml.sbforge.org</a>></span><o:p></o:p></p>
<div class="MsoNormal" align="center" style="text-align:center">
<hr size="2" width="100%" noshade="" style="color:#A0A0A0" align="center">
</div>
<p class="MsoNormal" style="margin-bottom:12.0pt"><br>
<br>
<br>
<span style="font-family:"Calibri",sans-serif">Hello!</span><br>
<span style="font-family:"Calibri",sans-serif"> </span><br>
<span style="font-family:"Calibri",sans-serif">I’m trying to understand how NAS and Heritrix handles deduplication, which lead to an internal discussion about the overall pros and cons of ditto. I then found Kristinn Sigurðsson’s interesting web archiving blog
 articles. He has written about de- and reduplication: </span><a href="https://kris-sigur.blogspot.com/2015/01/the-downside-of-web-archive.html"><span style="font-family:"Calibri",sans-serif;color:#0082BF">https://kris-sigur.blogspot.com/2015/01/the-downside-of-web-archive.html</span></a><br>
<span style="font-family:"Calibri",sans-serif"> </span><br>
<span style="font-family:"Calibri",sans-serif">Some short questions about the deduplication in NAS (is.hi.bok.deduplicator.DeDuplicator) that I would appreciate quick answers on (from all NAS user sites):</span><br>
<span style="font-family:"Calibri",sans-serif"> </span><br>
<span style="font-family:"Calibri",sans-serif">1)      Do you use deduplication for snapshot harvests (broad crawls)?</span><br>
<span style="font-family:"Calibri",sans-serif">2)      Do you use deduplication for snapshot harvests?</span><br>
<span style="font-family:"Calibri",sans-serif">3)      Which matching method do you use – DIGEST or URL?</span><br>
<span style="font-family:"Calibri",sans-serif">4)      Do you “restart” the deduplication at intervals? How long intervals?</span><br>
<span style="font-family:"Calibri",sans-serif"> </span><br>
<span style="font-family:"Calibri",sans-serif">By (4) I mean you do a harvest with no deduplication, limiting the number of dependencies between WARC files. (Somewhat like total and incremental backups.) Maybe you just do deduplication between  the 2–3 steps
 in a broad crawl? Or between the last X broad crawls?</span><br>
<span style="font-family:"Calibri",sans-serif"> </span><br>
<span style="font-family:"Calibri",sans-serif">Regards, </span><br>
<span style="font-family:"Arial",sans-serif">-----<br>
<br>
Peter Svanberg</span><span style="font-family:"Calibri",sans-serif"><br>
</span><span style="font-family:"Arial",sans-serif"><br>
National Library of Sweden<br>
Phone: +46 10 709 32 78</span><span style="font-family:"Calibri",sans-serif"><br>
</span><span style="font-family:"Arial",sans-serif"><br>
E-mail</span><span style="font-family:"Calibri",sans-serif">: </span><span style="font-family:"Arial",sans-serif"><a href="mailto:peter.svanberg@kb.se">peter.svanberg@kb.se</a><br>
Web</span><span style="font-family:"Calibri",sans-serif">: </span><a href="www.kb.se"><span style="font-family:"Arial",sans-serif">www.kb.se</span></a><span style="font-family:"Calibri",sans-serif"><br>
</span><br>
<span style="font-family:"Calibri",sans-serif"> </span><br>
<span style="font-family:"Calibri",sans-serif"> </span><tt><span style="font-size:10.0pt">_______________________________________________</span></tt><span style="font-size:10.0pt;font-family:"Courier New""><br>
<tt>NetarchiveSuite-users mailing list</tt><br>
<tt><a href="mailto:NetarchiveSuite-users@ml.sbforge.org">NetarchiveSuite-users@ml.sbforge.org</a></tt><br>
</span><a href="https://ml.sbforge.org/mailman/listinfo/netarchivesuite-users"><tt><span style="font-size:10.0pt">https://ml.sbforge.org/mailman/listinfo/netarchivesuite-users</span></tt></a><span style="font-family:"Arial",sans-serif"><o:p></o:p></span></p>
<div class="MsoNormal" align="center" style="text-align:center"><span style="font-family:"Arial",sans-serif">
<hr size="2" width="100%" align="center">
</span></div>
<p><span style="font-family:"Arial",sans-serif">Exposition <em><b><span style="font-family:"Arial",sans-serif"><a href="https://www.bnf.fr/fr/agenda/tolkien-voyage-en-terre-du-milieu">Tolkien, voyage en Terre du Milieu</a></span></b></em> - du 22 octobre 2019
 au 16 février 2020 - BnF - François-Mitterrand<o:p></o:p></span></p>
<p><strong><span style="font-family:"Arial",sans-serif;color:green">Avant d'imprimer, pensez à l'environnement.</span></strong><span style="font-family:"Arial",sans-serif;color:green"><o:p></o:p></span></p>
<p class="MsoNormal">_______________________________________________<br>
NetarchiveSuite-users mailing list<br>
<a href="mailto:NetarchiveSuite-users@ml.sbforge.org">NetarchiveSuite-users@ml.sbforge.org</a><br>
<a href="https://ml.sbforge.org/mailman/listinfo/netarchivesuite-users">https://ml.sbforge.org/mailman/listinfo/netarchivesuite-users</a><o:p></o:p></p>
</div>
</blockquote>
</div>
</div>
</div>
</div>
</div>
</body>
</html>