Per costruire un motore di ricerca completo che avrebbe bisogno dei seguenti componenti-

  1. crawler- Questo va da un sito all'altro, afferra il contenuto di questi siti web e li memorizza in un database.
  2. parser– consulte este artículo, salva i metadati
  3. indicizzatore– Legge i dati analizzati e crea un indice invertito (simile a quella che si troverebbero alla fine di un libro ) Puede crear un mapa del sitio gratis con opciones en este artículo . In caso contrario il motore di ricerca dovrà passare attraverso tutti i documenti uno per uno. Questo riduce il tempo di elaborazione.
  4. Risultati della ricerca Ranker – Per ogni query di ricerca, il motore di ricerca recupera molti documenti / risultati. Questo ranker ordina questi risultati sulla base di un certo punteggio. Google utilizza un algoritmo noto come l'algoritmo di page rank. Si può venire con il proprio algoritmo di punteggio così.
  5. Ricerca Interfaccia utente– Per lo più gli utenti effettuano ricerche nei browser o applicazioni mobili attraverso l'interfaccia dei motori di ricerca. Questo di solito è costruito utilizzando Javascript.motore di ricerca WebCrawler

Che cosa è un web crawler?

Un webcrawler passa da un sito all'altro e scarica il contenuto dei siti web dal web.

motore di ricerca WebCrawler

architettura cingolato

Qui è una tipica architettura cingolato.

motore di ricerca WebCrawler

Alcune indicazioni da tenere a mente durante la progettazione di un buon webcrawler per la ricerca sul Web?

  1. كيفية إضافة نموذج بحث وورد
  2. سوف نرى كيف يمكنك إنشاء نموذج بحث ورد مخصصة باستخدام طريقتين مختلفتين motore di ricerca WebCrawler
  3. Consumare la larghezza di banda ottimale.
  4. Maniglia HTTP 301 e HTTP 302 redirect– Il crawler deve essere in grado di gestire tali pagine.
  5. caching DNS– Invece di fare un DNS lookup ogni volta , crawler dovrebbe memorizzare nella cache del DNS. Questo aiuta a ridurre il tempo di scansione e la larghezza di banda internet utilizzata.
    motore di ricerca WebCrawler

    riducendo DNS caching

  6. multithreadingLa maggior parte dei crawler lanciare diversi “discussioni” نموذج البحث وورد عن طريق إضافة كود. Invece di un unico filo il download dei file, è possibile utilizzare questo approccio parallelo recuperare più pagine.
    motore di ricerca WebCrawler

    multithreading

  7. crawl asincrono– مع محرك البحث وورد expertrec ل strisciando , dal momento che solo un thread viene utilizzato per inviare e ricevere tutte le richieste web in parallelo. Questo permette di risparmiare l'utilizzo della RAM e CPU. L'utilizzo di questo siamo in grado di eseguire la scansione più di 3,000,000 le pagine web durante l'utilizzo di meno di 200 MB di RAM. L'utilizzo di questo siamo in grado di raggiungere una velocità di scansione di oltre 250 pagine al secondo.
  8. rilevamento dei duplicati- Il crawler deve essere in grado di trovare gli URL duplicati e rimuoverli.
    motore di ricerca WebCrawler

    simhash rilevamento dei duplicati

  9. consegna robots.txt – Il crawler dovrebbe leggere le impostazioni nel file robots.txt per la scansione delle pagine. alcune pagine (o modelli di pagina) saranno contrassegnati come Disallow e queste pagine non devono essere sottoposti a scansione. Robots.txt si troverà a website.com/robots.txt
    motore di ricerca WebCrawler

    robots.txt

  10. sitemap.xml- Sitemap è una mappa link del sito web. Ha tutti gli URL che hanno bisogno di strisciato. Questo rende il processo di scansione più semplice.
    motore di ricerca WebCrawler

    Mappa del sito

  11. politiche cingolati-
    1. politica di selezione che afferma che le pagine devono essere scaricati.
    2. un ri-visitare la politica in cui si afferma la frequenza per cercare cambiamenti nel sito.
    3. un politica di cortesia Quanto velocemente il sito web può essere strisciato (in modo che il carico sito non aumenta)
    4. un politica di parallelizzazione Istruzioni per i crawler distribuiti.

Quali sono alcuni crawler web open source che è possibile utilizzare-

  1. nutch
  2. Scrapy
  3. Heritrix. https://github.com/internetarchive/heritrix3
  4. wget
  5. http://stormcrawler.net/

Expertrec è una soluzione di ricerca che fornisce un ready made motore di ricerca ( crawler + parser + indicizzatore + Ricerca UI ). È possibile creare il proprio a https://cse.expertrec.com/?platform=cse

 

motore di ricerca WebCrawler

 

categorie: crawler

ganesh muthali

Muthali ama scrivere sulle tecnologie emergenti e di soluzioni semplici per problemi complessi di tecnologia. È possibile entrare in contatto con lui attraverso chat o sollevando un ticket di supporto sul lato sinistro della pagina.