<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /></head><body style='font-size: 9pt; font-family: Verdana,Geneva,sans-serif'>
<p>Yes , once again : output of the decoder is fine, I also put log inide the dovecot core to check whereas data is properly transmitted and it is (i.e. dovecot core receives the proper output of pdftotext via the decoder</p>
<p>Now, that data is the /not/ the once ent from dovecot core to the fts plugin (and this is the same issue for solr and all other plugins)</p>
<p>Of course, the stemming will show a good results abut the problem does remain.</p>
<p>How to make sure the data sent to the FTS plugins (xapian, solr, whatever...) is the the output of the decoder and /not/ the original data ?</p>
<div id="signature"></div>
<p><br /></p>
<p id="reply-intro">On 2021-02-08 21:11, Stuart Henderson wrote:</p>
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2px solid; margin: 0">
<div class="pre" style="margin: 0; padding: 0; font-family: monospace">On 2021-02-08, Joan Moreau <<a href="mailto:jom@grosjo.net">jom@grosjo.net</a>> wrote:
<blockquote type="cite" style="padding: 0 0.4em; border-left: #1010ff 2px solid; margin: 0">Well, in the function xxx_build_more of FTS plugin, the data received in <br />the original PDF, not the output of pdftotext<br /><br />Can you clarify where do you put your log in the solr plugin , so I can <br />check the situation in the xapian plugin ?</blockquote>
<br />The log is particular to fts_solr, you set it with e.g.<br /><br />"fts_solr = url=<a href="http://127.0.0.1:8983/solr/dovecot/" target="_blank" rel="noopener noreferrer">http://127.0.0.1:8983/solr/dovecot/</a> rawlog_dir=/tmp/solr"<br /><br />Confirmed it works for me, i.e. passes text from inside the pdf, and not<br />the whole pdf itself.<br /><br />Did you check that decode2text.sh works ok on your system (when running<br />as the relevant uid)?<br /><br />cat foo.pdf | sudo -u dovecot /usr/libexec/dovecot/decode2text.sh application/pdf<br /><br /><br /><br /></div>
</blockquote>
</body></html>