<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /></head><body style='font-size: 9pt; font-family: Verdana,Geneva,sans-serif'>
<div id="editbody1">
<div style="font-size: 9pt; font-family: Verdana,Geneva,sans-serif;">
<p>Yes , once again : output of the decoder is fine, I also put log inide the dovecot core to check whether data is properly transmitted, and result is that it is (i.e. dovecot core receives the proper output of pdftotext via the decoder</p>
<p>Now, that data is the /not/ the one sent from dovecot core to the fts plugin (and this is the same issue for solr and all other plugins)</p>
<p>Of course, the stemming will show a good results (as PDF content will be stemmed) but the problem does remain.</p>
<p>How to make sure the data sent to the FTS plugins (xapian, solr, whatever...) is the the output of the decoder and /not/ the original data ?</p>
<div id="v1signature"></div>
<p><br /></p>
<p id="v1reply-intro">On 2021-02-08 21:11, Stuart Henderson wrote:</p>
<blockquote style="padding: 0 0.4em; border-left: #1010ff 2px solid; margin: 0;">
<div class="v1pre" style="margin: 0; padding: 0; font-family: monospace;">On 2021-02-08, Joan Moreau <<a href="mailto:jom@grosjo.net" rel="noreferrer">jom@grosjo.net</a>> wrote:
<blockquote style="padding: 0 0.4em; border-left: #1010ff 2px solid; margin: 0;">Well, in the function xxx_build_more of FTS plugin, the data received in <br />the original PDF, not the output of pdftotext<br /><br />Can you clarify where do you put your log in the solr plugin , so I can <br />check the situation in the xapian plugin ?</blockquote>
<br />The log is particular to fts_solr, you set it with e.g.<br /><br />"fts_solr = url=<a href="http://127.0.0.1:8983/solr/dovecot/" target="_blank" rel="noopener noreferrer">http://127.0.0.1:8983/solr/dovecot/</a> rawlog_dir=/tmp/solr"<br /><br />Confirmed it works for me, i.e. passes text from inside the pdf, and not<br />the whole pdf itself.<br /><br />Did you check that decode2text.sh works ok on your system (when running<br />as the relevant uid)?<br /><br />cat foo.pdf | sudo -u dovecot /usr/libexec/dovecot/decode2text.sh application/pdf<br /><br /><br /><br /></div>
</blockquote>
</div>
</div>
</body></html>