Pagina 1 din 1

2k

Scris: Lun Mai 01, 2006 1:31 am
de Zamolxe
continuand intr-un fel ce s-a discutat in postulIdei (motor de cautare), va supun atentiei proiectul personal la care lucrez si pe baza caruia ma documentez de ceva luni:

VERASYS 2k crawler - este un crawler bazat pe PHP (mare parte cli) si MySQL.
PHP ruleaza cu niste patchuri, MySQL cu o configuratie pe care am tot testat-o special pt hardware, si tinde sa dea erori mai rar.

Momentan functioneaza public doar partea de research, partea de cautare propriu-zisa in rezultate inca nu este publica, este cea care mananca cele mai multe resurse in sensul ca nu am reusit pana acum cu nici un query (care returneaza rezultate relevante) sa obtin rezultate in timpi scurti. Este unul dintre motivele pe care m-am axat momentan pe partea de studiu cod html.

Am mai multe de facut la proiect (nu am pus tot online).

Cei interesati rog sa-l testeze. Multumesc

Scris: Lun Mai 01, 2006 1:54 am
de Pirahna
Ai pus o limita la numarul de unique links ?

ca tocmai am pus deviantart in queue ... si tinand cont ca sunt 21 de milioane de deviatii ...

inseamna cam aproape dublu de link-uri unice ...

sper sa se opreasca :D

//edit : s-a oprit la 42 , de ce ?

re

Scris: Lun Mai 01, 2006 1:58 am
de Zamolxe
:))

am scris pe prima pagina motivele pt care se opreste unde considera el, in jur de 50 de pagini:

the crawler only works with .ro, .com, .net and .org domains, with a limit of max 50 (may vary) unique links per URL
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects


deci nu urmeaza subdomenii (nu conteaza ca sunt din acelasi domeniu), nu urmeaza redirecturi (301,302, etc) - din motive de SPAM. mi-am mai luat-o in freza de cateva ori

iti dai seama ca as fi nebun sa-l lasa fara limita ;)

Scris: Lun Mai 01, 2006 2:07 am
de Pirahna
okay ... e 2:00 am , piry nu vede bine ...

de ce imi zice ca "www.2k.ro" nu e valid ?

la fel zice si la "www.3x.ro"
vad ca "www.lx.ro" merge ...

hmm ... well ?

re

Scris: Lun Mai 01, 2006 2:14 am
de Zamolxe
:)

am impresia ca e o greseala de regex pe camp, la ora asta imi ceri prea mult :)) , s-ar putea sa fie din dns ..zzZzZZZzz

de obicei daca se opreste din indexat, sau ramane la 1 pagina inseamna ca nu are link-uri interne, ci numai subdomenii sau redirecturi

Scris: Mar Mai 02, 2006 4:35 pm
de black diamond
typo:
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects