2k

Proiect care işi propune realizarea unui motor de căutare pentru site-urile .ro.

Moderator: Moderatori

Zamolxe
Average Member
Mesaje: 130
Membru din: Mar Ian 14, 2003 4:50 pm
Localitate: Bucharest

2k

Mesajde Zamolxe » Lun Mai 01, 2006 1:31 am

continuand intr-un fel ce s-a discutat in postulIdei (motor de cautare), va supun atentiei proiectul personal la care lucrez si pe baza caruia ma documentez de ceva luni:

VERASYS 2k crawler - este un crawler bazat pe PHP (mare parte cli) si MySQL.
PHP ruleaza cu niste patchuri, MySQL cu o configuratie pe care am tot testat-o special pt hardware, si tinde sa dea erori mai rar.

Momentan functioneaza public doar partea de research, partea de cautare propriu-zisa in rezultate inca nu este publica, este cea care mananca cele mai multe resurse in sensul ca nu am reusit pana acum cu nici un query (care returneaza rezultate relevante) sa obtin rezultate in timpi scurti. Este unul dintre motivele pe care m-am axat momentan pe partea de studiu cod html.

Am mai multe de facut la proiect (nu am pus tot online).

Cei interesati rog sa-l testeze. Multumesc



Pirahna
Senior Member
Mesaje: 5985
Membru din: Dum Aug 22, 2004 2:04 am
Localitate: la birou
Contact:

Mesajde Pirahna » Lun Mai 01, 2006 1:54 am

Ai pus o limita la numarul de unique links ?

ca tocmai am pus deviantart in queue ... si tinand cont ca sunt 21 de milioane de deviatii ...

inseamna cam aproape dublu de link-uri unice ...

sper sa se opreasca :D

//edit : s-a oprit la 42 , de ce ?

Zamolxe
Average Member
Mesaje: 130
Membru din: Mar Ian 14, 2003 4:50 pm
Localitate: Bucharest

re

Mesajde Zamolxe » Lun Mai 01, 2006 1:58 am

:))

am scris pe prima pagina motivele pt care se opreste unde considera el, in jur de 50 de pagini:

the crawler only works with .ro, .com, .net and .org domains, with a limit of max 50 (may vary) unique links per URL
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects


deci nu urmeaza subdomenii (nu conteaza ca sunt din acelasi domeniu), nu urmeaza redirecturi (301,302, etc) - din motive de SPAM. mi-am mai luat-o in freza de cateva ori

iti dai seama ca as fi nebun sa-l lasa fara limita ;)

Pirahna
Senior Member
Mesaje: 5985
Membru din: Dum Aug 22, 2004 2:04 am
Localitate: la birou
Contact:

Mesajde Pirahna » Lun Mai 01, 2006 2:07 am

okay ... e 2:00 am , piry nu vede bine ...

de ce imi zice ca "www.2k.ro" nu e valid ?

la fel zice si la "www.3x.ro"
vad ca "www.lx.ro" merge ...

hmm ... well ?

Zamolxe
Average Member
Mesaje: 130
Membru din: Mar Ian 14, 2003 4:50 pm
Localitate: Bucharest

re

Mesajde Zamolxe » Lun Mai 01, 2006 2:14 am

:)

am impresia ca e o greseala de regex pe camp, la ora asta imi ceri prea mult :)) , s-ar putea sa fie din dns ..zzZzZZZzz

de obicei daca se opreste din indexat, sau ramane la 1 pagina inseamna ca nu are link-uri interne, ci numai subdomenii sau redirecturi

Avatar utilizator
black diamond
Senior Member
Mesaje: 298
Membru din: Lun Mai 23, 2005 8:42 pm
Contact:

Mesajde black diamond » Mar Mai 02, 2006 4:35 pm

typo:
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects
posturile mele | my tiny blog
p.s. pentru anumite lucruri trebuie un dram de logica si rabdare... sau o cautare scurta pe net. faceti uz de google!


Înapoi la “Motor de cautare”

Cine este conectat

Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 17 vizitatori