Pagina 1 din 1

ecaut.ro motor de cautare

Scris: Mar Ian 10, 2012 8:13 pm
de Seotop
ecaut.ro un motor de cautare Romanesc cu propriul spider/crawler .
Indexeaza doar site-uri din Romania , dar prin inscriere manuala se poate indexa orice site web.
Motorul si crawlerul sunt scrise in aproape totalitate in PHP.

in momentul de fata as avea nevoie de sustinere si/sau sfaturi.

mii de multumiri.

Scris: Mar Ian 10, 2012 9:13 pm
de quadmachine
Marimea font-ului la descriere este mai mare ca marimea font-ului la link.Paginarea arata destul de urat ,la cautare imagini ai putea sa afisezi imaginile pe centru si nu sus de tot la block.

Scris: Mar Ian 10, 2012 9:26 pm
de Seotop
intradevar nu am lucrat prea mult la design, deocamdata inca am foarte mult de lucrat pe partea tehnica.
cred ca designul se poate aranja un pic mai tarziu.

oricum multumesc pentru sfat

Scris: Joi Iun 14, 2012 12:25 am
de l33t
Interesant. Sunt curios cum ai facut anumite chestii, in primul rand crawlerul, cam de cate ori trece peste un site? Tine cont de link-urile din pagina, sitemap.xml, robots.txt. Ce faci daca un site iti baneaza ip-ul?
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com

Scris: Joi Iun 14, 2012 6:22 pm
de Seotop
l33t scrie:Interesant. Sunt curios cum ai facut anumite chestii, in primul rand crawlerul, cam de cate ori trece peste un site? Tine cont de link-urile din pagina, sitemap.xml, robots.txt. Ce faci daca un site iti baneaza ip-ul?
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com


Crawlerul trece ciclic peste toate site-urile odata indexate, verifica daca au fost aduse modificari daca da atunci scaneaza complet din nou, daca nu atunci urmareste alte linkuri din site.
Tine cont de linkurile interne si cele externe dintr-un site (aici pot spune ca incerc sa evit linkfarm-urile prin simple limitari).
Nu tine cont de sitemap si de robots.txt, nu calculeaza si nu ofera importanta la nici un rank , deci implicit ignora si atributul "follow/nofollow" si "index/noindex".
Daca cineva blocheaza IP-ul este dreptul lui, crawlerul trece mai departe.
Scalarea, nu stiu daca este corect dar eu il denumesc "indexare", incerc sa utilizez resursele site-ului(cel indexat) la minimum fara a deranja fluxul normal al paginilor web, oricum indexarea unui site nu inseamna secunde sau minute, dupa convingerile mele o indexare corecta a unui site dureaza mai mult timp.

Scris: Vin Iun 15, 2012 11:31 am
de mihaitha
In primul rand, a ignora directivele noindex / nofollow mi se pare o tampenie, practic daca un webmaster iti spune "nu imi indexa pagina asta" tu spui "fuck off don't tell me what to do!". Nu mi se pare etica aceasta conceptie, eu unul ti-as bloca IP-ul direct. Same goes for robots.txt.

Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.

Think about it.

Scris: Vin Iun 15, 2012 2:01 pm
de Seotop
mihaitha scrie:In primul rand, a ignora directivele noindex / nofollow mi se pare o tampenie, practic daca un webmaster iti spune "nu imi indexa pagina asta" tu spui "fuck off don't tell me what to do!". Nu mi se pare etica aceasta conceptie, eu unul ti-as bloca IP-ul direct. Same goes for robots.txt.

Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.

Think about it.


- nofollow este un atribut care se foloseste pentru pagerank, singurul motor care foloseste acest atribut este G ,nici un alt motor yahoo, bing, blekko, yandex, baidu etc nu folosesc acest atribut.
Nici eu nu socotesc rank !!!
- sitemap este o unealta care poate fi manipulat de webmaster.
- daca ai fi citit cu atentie paginile(nu este vorba de un site intreg) sunt reindexate daca exista modificare fata de ultima indexare
- Stai linistit ca nu face ecaut.ro un trafic sa-ti cada serverul sharuit :)
- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
- In cea ce priveste robots.txt este un lucru care va fi implementat in curind

Scris: Vin Iun 15, 2012 4:58 pm
de mihaitha
Seotop scrie:- nofollow este un atribut care se foloseste pentru pagerank, singurul motor care foloseste acest atribut este G ,nici un alt motor yahoo, bing, blekko, yandex, baidu etc nu folosesc acest atribut.
Nici eu nu socotesc rank !!!
Din toata lista care ai enumerat-o acolo, doar G (presupun ca te referi la Google) e un motor de cautare, restul sunt tentative. Depinde cum vrei sa ti-l clasifici si pe al tau...
Seotop scrie:- sitemap este o unealta care poate fi manipulat de webmaster.
Nu vad relevanta acestei afirmatii. Vroiai sa imi dai un contraargument?
Seotop scrie:- daca ai fi citit cu atentie paginile(nu este vorba de un site intreg) sunt reindexate daca exista modificare fata de ultima indexare
Adica citesti contintul paginilor deja indexate la fiecare crawl? Ai impresia ca nu generezi trafic cu asta? Glumesti...
Seotop scrie:- Stai linistit ca nu face ecaut.ro un trafic sa-ti cada serverul sharuit :)
Ai fi surprins.
Seotop scrie:- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
De ce? Daca am un site cu toate paginile indexabile si interlink-uite, si mi-l inscriu in motorul tau, nu mi le indexezi pe toate? Bun motor, n-am ce zice! :thumbright:

Scris: Vin Iun 15, 2012 5:51 pm
de Seotop
pot doar sa corectez un singur lucru. cred ca nu m-am exprimat explicit din cate vad.
- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.


Indexam tot site-ul !!! dar nu la o singura "vizita" !!!
la fiecare indexare se citeste doar o parte, cateva pagini , nu se indexeaza un site dintr-un foc de la cap la coada.
Exista pagina principala, subdomenii , pagini de rang I de rang II etc..
:)


In rest cele spuse de mine nu sunt numai argumente sau contraargumente sunt lucruri care functioneaza si principii pe care le-am considerat ca trebuie sa lucreze un "motor de cautare"

Din toata lista care ai enumerat-o acolo, doar G (presupun ca te referi la Google) e un motor de cautare, restul sunt tentative.

tentative de cateve milioane. ex: http://searchenginewatch.com/article/21 ... -in-Blekko

sunt convins ca folosesti Google , dar fi sigur ca mai sunt motoare de cautare chiar bune.
pe domeniul rusesc de exemplu yandex este mai folosit de cat google
si exemplele pot continua.

P.S tentativele au sanse !!!! in rest.............. :wink:

Scris: Lun Iun 18, 2012 3:33 pm
de mihaitha
Sincer nu m-ai lamurit cu nimic, mi-ai raspuns la cele mai minore probleme si le-ai ignorat pe cele mai arzatoare. Concluzie: nu cititi robots.txt si sitemap.xml pentru ca va e lene (sau nu stiti cum) sa implementati aceste functionalitati care dupa pararea mea sunt cruciale. Drept urmare voi avea grija sa va blochez toate IP-urile de pe care imi veti face crawl.

Cat despre motoarele de cautare, valoarea unui motor de cautare pentru un user sau un webmaster nu se cuantifica in suma de bani investita, ci in relevanta rezultatelor returnate pentru un anumit query, respectiv si impactul asupra performantei. Google e cel mai putin folosit motor de cautare in China (pentru ca nu a acceptat sa fie cenzurat, drept urmare e blocat). Asta inseamna ca e naspa?

Succes cu tentativa voastra, din ce imi spui sunt sigur ca aveti sanse...

Scris: Joi Iul 19, 2012 2:03 pm
de teodor98
Eu cred ca ar fi o inbunatatire ca atunci cand nu exista nici un rezultat pentru cuvantul cheie respectiv sa apara rezultatele google pentru acel cuvant