ecaut.ro un motor de cautare Romanesc cu propriul spider/crawler .
Indexeaza doar site-uri din Romania , dar prin inscriere manuala se poate indexa orice site web.
Motorul si crawlerul sunt scrise in aproape totalitate in PHP.
in momentul de fata as avea nevoie de sustinere si/sau sfaturi.
mii de multumiri.
ecaut.ro motor de cautare
Moderator: Moderatori
-
- Senior Member
- Mesaje: 807
- Membru din: Sâm Iul 10, 2010 4:58 pm
- Localitate: Ploiesti
- Contact:
Marimea font-ului la descriere este mai mare ca marimea font-ului la link.Paginarea arata destul de urat ,la cautare imagini ai putea sa afisezi imaginile pe centru si nu sus de tot la block.
Cod: Selectaţi tot
Nu confundati femeia de serviciu cu profesoara de Limba si Literatura Romana.
- Seotop
- PHPRomania Supporter
- Mesaje: 25
- Membru din: Mie Mar 25, 2009 10:56 pm
- Localitate: Brasov
- Contact:
intradevar nu am lucrat prea mult la design, deocamdata inca am foarte mult de lucrat pe partea tehnica.
cred ca designul se poate aranja un pic mai tarziu.
oricum multumesc pentru sfat
cred ca designul se poate aranja un pic mai tarziu.
oricum multumesc pentru sfat
Caut in Romania
Interesant. Sunt curios cum ai facut anumite chestii, in primul rand crawlerul, cam de cate ori trece peste un site? Tine cont de link-urile din pagina, sitemap.xml, robots.txt. Ce faci daca un site iti baneaza ip-ul?
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com
- Seotop
- PHPRomania Supporter
- Mesaje: 25
- Membru din: Mie Mar 25, 2009 10:56 pm
- Localitate: Brasov
- Contact:
l33t scrie:Interesant. Sunt curios cum ai facut anumite chestii, in primul rand crawlerul, cam de cate ori trece peste un site? Tine cont de link-urile din pagina, sitemap.xml, robots.txt. Ce faci daca un site iti baneaza ip-ul?
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com
Crawlerul trece ciclic peste toate site-urile odata indexate, verifica daca au fost aduse modificari daca da atunci scaneaza complet din nou, daca nu atunci urmareste alte linkuri din site.
Tine cont de linkurile interne si cele externe dintr-un site (aici pot spune ca incerc sa evit linkfarm-urile prin simple limitari).
Nu tine cont de sitemap si de robots.txt, nu calculeaza si nu ofera importanta la nici un rank , deci implicit ignora si atributul "follow/nofollow" si "index/noindex".
Daca cineva blocheaza IP-ul este dreptul lui, crawlerul trece mai departe.
Scalarea, nu stiu daca este corect dar eu il denumesc "indexare", incerc sa utilizez resursele site-ului(cel indexat) la minimum fara a deranja fluxul normal al paginilor web, oricum indexarea unui site nu inseamna secunde sau minute, dupa convingerile mele o indexare corecta a unui site dureaza mai mult timp.
Caut in Romania
- mihaitha
- Senior Member
- Mesaje: 2383
- Membru din: Vin Mai 04, 2007 12:40 pm
- Localitate: Sibiu
- Contact:
In primul rand, a ignora directivele noindex / nofollow mi se pare o tampenie, practic daca un webmaster iti spune "nu imi indexa pagina asta" tu spui "fuck off don't tell me what to do!". Nu mi se pare etica aceasta conceptie, eu unul ti-as bloca IP-ul direct. Same goes for robots.txt.
Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.
Think about it.
Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.
Think about it.
- Seotop
- PHPRomania Supporter
- Mesaje: 25
- Membru din: Mie Mar 25, 2009 10:56 pm
- Localitate: Brasov
- Contact:
mihaitha scrie:In primul rand, a ignora directivele noindex / nofollow mi se pare o tampenie, practic daca un webmaster iti spune "nu imi indexa pagina asta" tu spui "fuck off don't tell me what to do!". Nu mi se pare etica aceasta conceptie, eu unul ti-as bloca IP-ul direct. Same goes for robots.txt.
Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.
Think about it.
- nofollow este un atribut care se foloseste pentru pagerank, singurul motor care foloseste acest atribut este G ,nici un alt motor yahoo, bing, blekko, yandex, baidu etc nu folosesc acest atribut.
Nici eu nu socotesc rank !!!
- sitemap este o unealta care poate fi manipulat de webmaster.
- daca ai fi citit cu atentie paginile(nu este vorba de un site intreg) sunt reindexate daca exista modificare fata de ultima indexare
- Stai linistit ca nu face ecaut.ro un trafic sa-ti cada serverul sharuit
- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
- In cea ce priveste robots.txt este un lucru care va fi implementat in curind
Caut in Romania
- mihaitha
- Senior Member
- Mesaje: 2383
- Membru din: Vin Mai 04, 2007 12:40 pm
- Localitate: Sibiu
- Contact:
Din toata lista care ai enumerat-o acolo, doar G (presupun ca te referi la Google) e un motor de cautare, restul sunt tentative. Depinde cum vrei sa ti-l clasifici si pe al tau...Seotop scrie:- nofollow este un atribut care se foloseste pentru pagerank, singurul motor care foloseste acest atribut este G ,nici un alt motor yahoo, bing, blekko, yandex, baidu etc nu folosesc acest atribut.
Nici eu nu socotesc rank !!!
Nu vad relevanta acestei afirmatii. Vroiai sa imi dai un contraargument?Seotop scrie:- sitemap este o unealta care poate fi manipulat de webmaster.
Adica citesti contintul paginilor deja indexate la fiecare crawl? Ai impresia ca nu generezi trafic cu asta? Glumesti...Seotop scrie:- daca ai fi citit cu atentie paginile(nu este vorba de un site intreg) sunt reindexate daca exista modificare fata de ultima indexare
Ai fi surprins.Seotop scrie:- Stai linistit ca nu face ecaut.ro un trafic sa-ti cada serverul sharuit
De ce? Daca am un site cu toate paginile indexabile si interlink-uite, si mi-l inscriu in motorul tau, nu mi le indexezi pe toate? Bun motor, n-am ce zice!Seotop scrie:- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
- Seotop
- PHPRomania Supporter
- Mesaje: 25
- Membru din: Mie Mar 25, 2009 10:56 pm
- Localitate: Brasov
- Contact:
pot doar sa corectez un singur lucru. cred ca nu m-am exprimat explicit din cate vad.
Indexam tot site-ul !!! dar nu la o singura "vizita" !!!
la fiecare indexare se citeste doar o parte, cateva pagini , nu se indexeaza un site dintr-un foc de la cap la coada.
Exista pagina principala, subdomenii , pagini de rang I de rang II etc..
In rest cele spuse de mine nu sunt numai argumente sau contraargumente sunt lucruri care functioneaza si principii pe care le-am considerat ca trebuie sa lucreze un "motor de cautare"
tentative de cateve milioane. ex: http://searchenginewatch.com/article/21 ... -in-Blekko
sunt convins ca folosesti Google , dar fi sigur ca mai sunt motoare de cautare chiar bune.
pe domeniul rusesc de exemplu yandex este mai folosit de cat google
si exemplele pot continua.
P.S tentativele au sanse !!!! in rest..............
- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
Indexam tot site-ul !!! dar nu la o singura "vizita" !!!
la fiecare indexare se citeste doar o parte, cateva pagini , nu se indexeaza un site dintr-un foc de la cap la coada.
Exista pagina principala, subdomenii , pagini de rang I de rang II etc..
In rest cele spuse de mine nu sunt numai argumente sau contraargumente sunt lucruri care functioneaza si principii pe care le-am considerat ca trebuie sa lucreze un "motor de cautare"
Din toata lista care ai enumerat-o acolo, doar G (presupun ca te referi la Google) e un motor de cautare, restul sunt tentative.
tentative de cateve milioane. ex: http://searchenginewatch.com/article/21 ... -in-Blekko
sunt convins ca folosesti Google , dar fi sigur ca mai sunt motoare de cautare chiar bune.
pe domeniul rusesc de exemplu yandex este mai folosit de cat google
si exemplele pot continua.
P.S tentativele au sanse !!!! in rest..............
Caut in Romania
- mihaitha
- Senior Member
- Mesaje: 2383
- Membru din: Vin Mai 04, 2007 12:40 pm
- Localitate: Sibiu
- Contact:
Sincer nu m-ai lamurit cu nimic, mi-ai raspuns la cele mai minore probleme si le-ai ignorat pe cele mai arzatoare. Concluzie: nu cititi robots.txt si sitemap.xml pentru ca va e lene (sau nu stiti cum) sa implementati aceste functionalitati care dupa pararea mea sunt cruciale. Drept urmare voi avea grija sa va blochez toate IP-urile de pe care imi veti face crawl.
Cat despre motoarele de cautare, valoarea unui motor de cautare pentru un user sau un webmaster nu se cuantifica in suma de bani investita, ci in relevanta rezultatelor returnate pentru un anumit query, respectiv si impactul asupra performantei. Google e cel mai putin folosit motor de cautare in China (pentru ca nu a acceptat sa fie cenzurat, drept urmare e blocat). Asta inseamna ca e naspa?
Succes cu tentativa voastra, din ce imi spui sunt sigur ca aveti sanse...
Cat despre motoarele de cautare, valoarea unui motor de cautare pentru un user sau un webmaster nu se cuantifica in suma de bani investita, ci in relevanta rezultatelor returnate pentru un anumit query, respectiv si impactul asupra performantei. Google e cel mai putin folosit motor de cautare in China (pentru ca nu a acceptat sa fie cenzurat, drept urmare e blocat). Asta inseamna ca e naspa?
Succes cu tentativa voastra, din ce imi spui sunt sigur ca aveti sanse...
Cine este conectat
Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 3 vizitatori