 |
Forum PHP Romania - Discutii despre PHP, MySQL, Javascript, AJAX, etc Comunitatea PHP Romania
|
| Subiectul anterior :: Subiectul următor |
| Autor |
Mesaj |
Zamolxe
Data înscrierii: 14/Ian/2003
Mesaje: 126
Locație: Bucharest
|
| Trimis: Lun Mai 01, 2006 12:31 am Titlul subiectului: 2k |
|
|
continuand intr-un fel ce s-a discutat in postulIdei (motor de cautare), va supun atentiei proiectul personal la care lucrez si pe baza caruia ma documentez de ceva luni:
VERASYS 2k crawler - este un crawler bazat pe PHP (mare parte cli) si MySQL.
PHP ruleaza cu niste patchuri, MySQL cu o configuratie pe care am tot testat-o special pt hardware, si tinde sa dea erori mai rar.
Momentan functioneaza public doar partea de research, partea de cautare propriu-zisa in rezultate inca nu este publica, este cea care mananca cele mai multe resurse in sensul ca nu am reusit pana acum cu nici un query (care returneaza rezultate relevante) sa obtin rezultate in timpi scurti. Este unul dintre motivele pe care m-am axat momentan pe partea de studiu cod html.
Am mai multe de facut la proiect (nu am pus tot online).
Cei interesati rog sa-l testeze. Multumesc |
|
| Sus |
|
Pirahna
Data înscrierii: 22/Aug/2004
Mesaje: 4553
Locație: la birou
|
| Trimis: Lun Mai 01, 2006 12:54 am Titlul subiectului: |
|
|
Ai pus o limita la numarul de unique links ?
ca tocmai am pus deviantart in queue ... si tinand cont ca sunt 21 de milioane de deviatii ...
inseamna cam aproape dublu de link-uri unice ...
sper sa se opreasca :D
//edit : s-a oprit la 42 , de ce ? |
|
| Sus |
|
Zamolxe
Data înscrierii: 14/Ian/2003
Mesaje: 126
Locație: Bucharest
|
| Trimis: Lun Mai 01, 2006 12:58 am Titlul subiectului: re |
|
|
:))
am scris pe prima pagina motivele pt care se opreste unde considera el, in jur de 50 de pagini:
Citat:
the crawler only works with .ro, .com, .net and .org domains, with a limit of max 50 (may vary) unique links per URL
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects
deci nu urmeaza subdomenii (nu conteaza ca sunt din acelasi domeniu), nu urmeaza redirecturi (301,302, etc) - din motive de SPAM. mi-am mai luat-o in freza de cateva ori
iti dai seama ca as fi nebun sa-l lasa fara limita ;) |
|
| Sus |
|
Pirahna
Data înscrierii: 22/Aug/2004
Mesaje: 4553
Locație: la birou
|
| Trimis: Lun Mai 01, 2006 1:07 am Titlul subiectului: |
|
|
okay ... e 2:00 am , piry nu vede bine ...
de ce imi zice ca "www.2k.ro" nu e valid ?
la fel zice si la "www.3x.ro"
vad ca "www.lx.ro" merge ...
hmm ... well ? |
|
| Sus |
|
Zamolxe
Data înscrierii: 14/Ian/2003
Mesaje: 126
Locație: Bucharest
|
| Trimis: Lun Mai 01, 2006 1:14 am Titlul subiectului: re |
|
|
:)
am impresia ca e o greseala de regex pe camp, la ora asta imi ceri prea mult :)) , s-ar putea sa fie din dns ..zzZzZZZzz
de obicei daca se opreste din indexat, sau ramane la 1 pagina inseamna ca nu are link-uri interne, ci numai subdomenii sau redirecturi |
|
| Sus |
|
black diamond
Data înscrierii: 23/Mai/2005
Mesaje: 298
|
| Trimis: Mar Mai 02, 2006 3:35 pm Titlul subiectului: |
|
|
| typo: Citat: to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects |
|
| Sus |
|
PHPRomania Bot
Bot Member
Data înscrierii: 27/Dec/2007
Mesaje: 1
Locaţie: Server Google |
| Trimis: Mie Dec 26, 2007 7:01 pm Titlul subiectului: Ad |
|
|
|
|
|
| Sus |
|
| |
|