PHP suficient de puternic pentru un motor de cautare

Ai o întrebare legată de PHP? Incercăm să îi găsim soluţie. Sau poate doar vrei să publici un cod interesant.

Moderatori: Zamolxe, Moderatori

eleron
PHPRomania Supporter
Mesaje: 7
Membru din: Lun Noi 19, 2007 9:16 pm

PHP suficient de puternic pentru un motor de cautare

Mesajde eleron » Lun Noi 19, 2007 9:20 pm

Doresc sa realizez un motor de cautare pentru cca 20-25 de site-uri, motorul va terbui sa indexeze paginiile exact cum le face google, yahoo, msn, etc.
Am stat cateva nopti sa gandesc planul dar am intampinat niste greutati.
Prima ar fi alegerea limbajului de programare pentru crearea motorului. Cineva mi-a zis sa ma orientez spre perl si python, voi ce ziceti?



Avatar utilizator
vectorialpx
Senior Member
Mesaje: 4832
Membru din: Mar Mar 01, 2005 9:48 am
Localitate: Bucuresti
Contact:

Mesajde vectorialpx » Lun Noi 19, 2007 10:29 pm

ce inseamna sa indexeze pentru tine? de ce dimensiuni ai nevoie?

yahoo foloseste PHP si nu se vaita ca "nu e suficient de puternic"...
tind sa cred ca post-ul tau e o gluma atat timp cat PHP sta la baza a miliarde de site-uri si nimeni nu se vaita de un astfel de "neajuns" decat cei ce vor sa faca chestii care necesita resurse foarte multe

dechim
Senior Member
Mesaje: 1486
Membru din: Mar Mai 10, 2005 11:53 pm
Localitate: Drobeta Turnu Severin

Mesajde dechim » Lun Noi 19, 2007 11:08 pm

Eu zic ca mai important este algoritmul decat limbajul.
Motorului tau daca i-as da sa caute cuvantul "da" ar raspunde la fel de semnificativ ca google.

ShD
Average Member
Mesaje: 138
Membru din: Lun Noi 19, 2007 12:05 pm
Localitate: Iasi
Contact:

Mesajde ShD » Mar Noi 20, 2007 10:13 am

Ok evitand orice alt flame anterior am sa incerc sa iti raspund. Algoritmul motorului de cautare conteaza enorm. Indexarea ca si Google este cam dificila pentru ca desi se fac n speculatii si x afirma ca stiu sigur cum functioneaza, nimic nu merge in practica 100%.

Indexarea pentru 20-30 de pagini nu ar trebui sa fie foarte dificila dar e de preferat sa uiti de acest numar in momentul in care gandesti sistemul ca atunci cand te vei extinde sa nu te lovesti de probleme de pseudocod practic si algoritmica.

Limbaje care sa suporte astfel de cerinte sunt pe cat de multe pe atat de variate:

1. PHP - are absolut toate functiile necesare si este stabil pentru a extinde cam orice aplicatie pe el.
2. ASP[.]NET - platforma [.]NET 3.0 vine cu multe imbunatatiri in puncte cheie in cazul tau dar e mai greu in momentul in care vrei sa te mentii in legalitate daca nu iti permiti un MS SQL Server si un IIS.
3. RoR - dinamic, energic dar nu atat de popular deci va trebui sa mai scrii tu de mana una alta

Rezumat: orienteaza-te spre ce iti este mai familiar. Algoritmica iti va consuma mult timp si nu vrei sa dai si peste probleme de sintaxa.

eleron
PHPRomania Supporter
Mesaje: 7
Membru din: Lun Noi 19, 2007 9:16 pm

Mesajde eleron » Mar Noi 20, 2007 8:11 pm

Pana pe 15 ianuarie am termen de a stabili sintaxa, iar apoi sa ma apuc de cod, stiu ca este un lucru dificil de facut, dar si pretul este pe masura.
A inteles cum ar sta treaba, mi-a mai zis cineva ( din SUA) care a mai lucrat in aceasta sectiune, ca PHP poate tine pasul.

whooper
Senior Member
Mesaje: 866
Membru din: Mar Apr 05, 2005 9:58 pm
Localitate: Toronto ON

Mesajde whooper » Vin Noi 23, 2007 2:47 am

20-30 de website-uri iti pot genera o baza de date de cativa Gb la indexare. Sincer depinde de marimea site-urilor pe care le ai de indexat.

Puterea de indexare (cat de repede sunt indexate site-urile respective) este data in mod normal de webserverul pe care sunt hostate acele site-uri. PHP-ul ruland pe un hardware minim (un celeron cu 256 Mb RAM) este in masura sa ceara pagini mai repede decat pot fi ele servite de webserverele respective. Biblioteca CURL ajuta enorm ..

Nu poti garanta indexarea si ranking-ul cuvintelor similar cu Google, Yahoo etc pentru ca nu stii cum le fac ei.

Vei avea destule probleme sa indexezi informatia din PDF-uri, Excel-uri, Word-uri, MP3-uri, Flash-uri etc aflate pe site-urile respective. Daca se cere doar indexarea paginilor HTML, CSS, JS .. e simplu pentru ca ceea ce trebuie sa citesti e text.

Fii atent la portul pe care citesti informatia. HTTP-ul functioneaza implicit pe portul 80. Daca ai site-uri securizate, folosesti HTTPS (port 443).

Odata indexate informatiile, tot ce face search-ul tau sunt query-uri catre baza de date .. deci poti spune ca faci motorul de cautare in SQL, nu in PHP :)
Join The Forums - Time Well Wasted!

Avatar utilizator
vectorialpx
Senior Member
Mesaje: 4832
Membru din: Mar Mar 01, 2005 9:48 am
Localitate: Bucuresti
Contact:

Mesajde vectorialpx » Vin Noi 23, 2007 9:19 am

da... asta e ideea... nu pentru php trebuie sa-ti faci probleme ci pentru sgbd
documenteaza-te despre cat suporta si estimeaza cat ti-ar trebui

Avatar utilizator
mihaitha
Senior Member
Mesaje: 2383
Membru din: Vin Mai 04, 2007 12:40 pm
Localitate: Sibiu
Contact:

Mesajde mihaitha » Vin Noi 23, 2007 10:36 am

cu mysql 5 ar trebui sa ii fie suficient. din ce am citit despre el, a spart limita de 4 GB/baza de date prin introducerea partitionarii bazelor de date.

necenzurat
Senior Member
Mesaje: 360
Membru din: Sâm Sep 10, 2005 8:00 am

Mesajde necenzurat » Vin Noi 23, 2007 10:51 am

sau poti folosi http://www.sphider.eu/

carco
Senior Member
Mesaje: 2799
Membru din: Joi Mai 27, 2004 4:36 pm
Localitate: Bucuresti
Contact:

Mesajde carco » Sâm Noi 24, 2007 6:41 am

poti sa tragi cu ochiul si la PhpDig http://www.phpdig.net/
Programator cu experienta in Magento/ZF, Typo3/Flow3, Symfony, B2B, CRM, ERP, SMB... vand betoniera

adix
Average Member
Mesaje: 123
Membru din: Mar Oct 02, 2007 11:01 pm

Mesajde adix » Dum Noi 25, 2007 3:53 pm

whooper scrie:Vei avea destule probleme sa indexezi informatia din PDF-uri, Excel-uri, Word-uri, MP3-uri, Flash-uri etc aflate pe site-urile respective. Daca se cere doar indexarea paginilor HTML, CSS, JS .. e simplu pentru ca ceea ce trebuie sa citesti e text.


nici un motor de cautare nu poate sa indexeze tipul asta de fisiere. Este constient de existenta lor, dar continutul nu poate fi citit. Nici google, nici msn, nici cine vrei tu nu poate sa faca asta.[/quote]

Avatar utilizator
mihaitha
Senior Member
Mesaje: 2383
Membru din: Vin Mai 04, 2007 12:40 pm
Localitate: Sibiu
Contact:

Mesajde mihaitha » Dum Noi 25, 2007 4:46 pm

partial corect. nu zic de excel-uri si de word-uri, insa pdf-urile sunt indexate de google.

necenzurat
Senior Member
Mesaje: 360
Membru din: Sâm Sep 10, 2005 8:00 am

Mesajde necenzurat » Dum Noi 25, 2007 5:12 pm

adix scrie:nici un motor de cautare nu poate sa indexeze tipul asta de fisiere. Este constient de existenta lor, dar continutul nu poate fi citit. Nici google, nici msn, nici cine vrei tu nu poate sa faca asta.


corectie, se poate da cu programe externe, daca te uiti la sphider, poti :)
-
meh


Înapoi la “Cod PHP”

Cine este conectat

Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 39 vizitatori