DocFetcher

Cercare testo nei documenti con DocFetcher

DocFetcherQuante volte vi sarà capitato di avere la necessità di ricercare testo nei documenti per trovare quello in cui avevate documentato qualcosa che vi serve in quel momento ma non vi ricordate ne la directory dove l'avete registrato ne tantomeno il file.

In questo caso DocFetcher è quello che fa per voi.

DocFetcher è un software opensource multipiattaforma, quindi funziona su Linux, Windows e sul Mac.

DocFetcher vi permette di ricercare testo nei documenti di moltissimi formati diversi sia testuali che multimediali. Nel caso di quest'ultimi (mp3, jpeg, ...) effettua la ricerca nei metadata.

Di seguito l'elenco completo dei tipi di documenti in cui permette la ricerca:

  • AbiWord (abw, abw.gz, zabw)
  • EPUB
  • FLAC
  • HTML (html, htm, xhtml, shtml, shtm, php, asp, jsp)
  • JPEG (jpeg, jpg)
  • LibreOffice e OpenOffice.org
    • calc (ods, ots)
    • draw (odg, otg)
    • impress (odp, otp)
    • writer (odt, ott)
  • MP3
  • Microsoft Office
    • excel (xls, xlsx, xlsm)
    • word (doc, docx, docm)
    • powerpoint (ppt, pptx, pptm)
    • visio (vsd)
  • PDF
  • Plain text (propone di default txt, cpp, java e py, ma è possibile aggiungere qualunque altra estensioni di file testuali come ad esempio md per Markdown
  • Rich Text Format (rtf)
  • Scalable Vector Graphics (svg)

cosa volete di più?

Vediamo ora come utilizzarlo.

DocFetcher è scritto in java, quindi per funzionare occorre che abbiate installato Java sul vostro PC.

Una volta appurato che avete una JVM (Java Virtual Machine) potete scaricare DocFetcher

Essendo in java non necessita di installazione. Su Linux, supponendo di aver decompresso il file scaricato nella directory DocFetcher all'interno della vostra home directory, lo si avvia con questo semplice comando:

./DocFetcher/DocFetcher.sh

una volta avviato apparirà la seguente finestra

DocFetcher - cercare testo in documenti

prima di effettuare qualunque ricerca bisogna fargli indicizzare il percorso in cui si desidera effettuare la ricerca. Per farlo:

  • click destro in Search Scope
  • selezionare Create Index From --> Folder (è possibile cercare anche in un archivio PST di Outlook)
  • selezionare la directory desiderata (verranno indicizzate anche sotto-directory in essa contenute)
  • quindi cliccare sul pulsante Run dopo aver indicato i parametri desiderati se diversi dai default, ad esempio l'aggiunta di estensioni da scansionare per il plain text; nell'esempio riportato nella seguente figura ho aggiunto l'estensione md per i file Markdown

DocFetcher - cercare testo in documenti

ATTENZIONE: nella stessa finestra dei parametri è possibile indicare altre directory da scansionare; per farlo è sufficiente cliccare sul pulstante + in alto a destra.

Terminata l'indicizzazione delle cartelle richieste si può iniziare la ricerca.

E' sufficiente indicare il testo da ricercare nel combo box in alto e premere Invio (o cliccare sul pulsante Search).

Il risultato sarà simile a quello riportato nella seguente immagine:

DocFetcher - cercare testo in documenti

come si può notare, nella finestra in alto vengono riportati i documenti che rispondono alla ricerca. Li si può aprire con un semplice doppio click.

Nella finestra in basso viene riportata un'anteprima del documento selezionato con evidenziate le parole che rispondono alla ricerca.

In basso a sinistra viene indicato il numero totale dei documenti che rispondono alla ricerca.

La ricerca può avvenire in diversi modi:

  • OR: è la ricerca di default (modificabile nelle preferenze). Un documento è positivo alla ricerca su contiene almeno una parola tra quelle da ricercare. Esempio criptare encfs: nel mio caso mi restituisce 30 documenti
  • AND: un documento è positivo alla ricerca se contiene tutte le parole da ricercare. l'operatore AND va indicato in MAIUSCOLO. Esempio criptare AND encfs: nel mio caso mi restituisce 4 documenti
  • frase precisa: il testo da ricercare va racchiuso tra doppi apici e un documento risulta positivo solo se contiene la frase precisa da ricercare. Esempio "criptare encfs": nel mio caso NON restituisce documenti
  • NOT: un documento è positivo quando NON include la parola seguente a NOT. Esempio: criptare NOT encfs include documenti che contengono criptare ma NON encfs; nel mio caso sono 18. Lo stesso risultato lo si ottiene con il carattere - (meno), quindi criptare -encfs è uguale a criptare NOT encfs
  • query nidificate come ad esempio criptare AND (encfs OR truecrypt): in questo caso vengono inclusi documenti che contengono criptare E encfs oppure truecrypt

ATTENZIONE:

  • ogni termine ricercato, se non vengono indicati caratteri jolly, rilsulta positivo per la corrispondenza precisa. Esempio, se tra i termini ricervati indico scad il risultato non includerà termini derivati, in pratica NON includerà termini come scade, scaduto o scadere. Se voglio includere anche i termini derivati devo aggiungere il carattere jolly asterisco, ovvero scad*
  • la ricerca NON è case sensitive, NON fa differenza tra MAIUSCOLE e minucole

Come potete notare è uno strumento veramente potente.

(Letto 600 volte di cui 1 negli ultimi 30gg)
twitterlinkedinmailby feather

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *