Sign in to follow this  
Joel

Eigene Suchmaschine

Recommended Posts

Hallo Zusammen,

Wir haben nun eine eigene Suchmaschine gestartet.

Vorteil gegenüber Google oder ähnlichen Suchmaschinen ist, dass die Seiten selbst im Suchergebnis auftauchen und nicht nur Beschreibungs-Texte.

Vorteile gegenüber Alexa mit Screenshots:
- Die Bilder sind grösser und man kann den Inhalt etwas erkennen.
- Die Screenshots sind sehr aktuell.
- Es wird die konkrete Seite angezeigt und nicht die Startseite. Also Sucht man nach Simpsons wird nicht die Startseite von Amazon oder IMDB, New York Times angezeigt sondern der konkrete Artikel. Macht etwas mehr Sinn...
- Amazon und YouTube-Objekte werden extra-gross dargestellt.

Ihr könnt einige Beispiel-Suchen ausführen:
Simpsons
iPod
  • Bekommt vielleicht bald einen eigenen Namen und Domain (Vorschläge wären auch Willkommen)
  • Bekommt ein neues Design (Ich bin leider kein guter Designer...)
  • Mehr Funktionen (z.B. Seite 1,2,3,4,.. oder eine Detail-Vorschau beim Mouse-Over)
Wichtige Anmerkung: Bitte zum Ausprobieren nach maximal 3 Begriffen suchen. Wenn zu viele Leute gleichzeitig suchen, wird die Suchgeschwindigkeit negativ beeinflusst.

Falls jemand einen (oder mehrere) Root-Server hat und an zukünftigen Werbe-Einnahmen von Amazon oder anderen Partnerprogrammen beteiligt werden möchte, kann sich gerne melden. Je mehr Server und Benutzer die Suchmaschine hat, desto schneller wird sie. Denn dann wird mehr gecached, das Rechnen kann verteilt werden, etc. Vielleicht hat ja jemand Root-Server Verträge und nichts auf den Servern am laufen oder ähnliches.

PS: Ist noch Beta! Oder Alpha .. wink.gif

Getestet mit Firefox und Safari.

Gruess,
Joel

Share this post


Link to post
Share on other sites
Guest
Das finde ich einmal eine witzige Idee smile.gif))
Echt - kleine Screens anzuzeigen ohne was drumm herum -aber ich würde es dann doch so machen:

Den Screen der gefundenen Webseite etwas kleiner zB. ca. 150 x 150 PX und dann doch etwas Text entweder rechts daneben oder unter den Screen setzen zB. könnten da gewisse Suchbegriffe passend dazu aufgelistet werden, oder ???

Gruß Dirk

Share this post


Link to post
Share on other sites
die idee ist geil.

leider ist der logarithmus dahinter noch ned wirklich gut. die trefferquote ist noch ein wenig mager. vorallem an CH begriffe. deutschland begriffe findet er schon eher. aber ich denke das könnte noch was werden. also nen bookmark hat es mal schon gekriegt bei mir...

Share this post


Link to post
Share on other sites
yep, gute idee, aber wenigstens die url der angezeigten seite wuerde ich dazu schreiben...screenshot hin oder her, kann man so schnell malwaresites o.ä. aufsitzen und es gibt nunmal seiten die ich alleine schon von der URL her nicht besuchen wuerde ;-)

Share this post


Link to post
Share on other sites
Top, ich würde Screens kleiner machen und wenn man drauf geht mit der maus dann sollte ein Snapshot erscheinen, und wie kann man da seine Seite eintragen unsure.gif

Share this post


Link to post
Share on other sites
QUOTE

yep, gute idee, aber wenigstens die url der angezeigten seite wuerde ich dazu schreiben.

Yup ich werde die Texte noch dazu einblenden wenn man mit der Maus drüber geht, haben so ziemlich alle gesagt dass sie Texte wollen.

QUOTE

und wie kann man da seine Seite eintragen

Kann man nicht direkt leider ohmy.gif. Nur grössere Seiten wie Wikipedia, Amazon, YouTube werden speziell behandelt.

QUOTE

die trefferquote ist noch ein wenig mager.


Naja sind okay, abgesehen von einem kleinen Umlaut-Problem findet man auch lokale Dinge:
http://www.enzian-media.ch/search?query=zueri+gschnaetzlets

Die Links kommen vom Yahoo-API, die Reihenfolge ist selbst zusammengestellt. Also die top 50 Links kommen vom Yahoo-API, dann wird die Reihenfolge verändert und einige Seiten gefiltert!

Einige Seiten werden aber anders abgefragt z.B. Amazon, YouTube, etc. Ich könnte z.B. einstellen dass wenn Möglich auf jeder Seite zusätzlich 5 YouTube und 5 Amazon-Seiten angezeigt werden um z.B. den Amazon-Umsatz zu erhöhen. Aber diese Funktion ist Momentan ausgeschaltet da ich z.B. für Amazon kein anständiges Ranking habe. (Die Blended-Search auf Amazon liefert sehr schlechte Ergebnisse. )

Möglichkeiten für die Zukunft:
1) http://lucene.apache.org/java/docs/ << Das Apache Lucene könnte eingesetzt werden. Wikia setzt als Hintergrundtechnologie auch dieses OpenSource-Projekt ein.
2) Alexa-API, die Suchresultate wären noch schlechter und die Rechenzeit dort ist kostenpflichtig, jedoch unbegrenzt. (Die Kosten sind relativ günstig).
3) Weiterhin auf Yahoo und andere APIs setzen.

Der Renderer ist auch noch nicht wirklich gut:
- Framesets, Flash-Seiten und Seiten die sehr stark gegen den Standard verstossen werden nicht gerendert. Meistens ist es aber sehr schnell Nachvollziehbar wenn ein Rendering-Fehler auftritt (Die Seiten haben zum Teil nicht mal <html>-Tags oder kein <body>, etc.).

Share this post


Link to post
Share on other sites
Theoretisch finde ich die Idee ziemlich gut.

Praktisch sind bei solchen 'Bilddarstellungen' zwei Probleme kaum lösbar, die auch hier auftreten:

http://www.enzian-media.ch/search?query=xml

Bei IBM ist die Seite größtenteils weiß, bei einem anderen Ergebnis sind Text und Menü völlig miteinander vermischt.


http://www.enzian-media.ch/search?query=unicode

Die Seite http://vietunicode.sourceforge.net/ sagt 'This page uses frame, but your browser doesn't support frames'.


Diese Probleme sind zwar eigentlich Probleme der jeweiligen Seiten: Die verwenden Frames, das Design ist zu breit oder es hat irgendwelche Schwächen. Nur: Diese Probleme rechnen die Laien eher der Suchmaschine zu - 'die könne das nicht richtig darstellen, in meinem Browser sieht das doch ordentlich aus'.

Eine Lösung für das Problem habe ich fast nicht. Einzig die Frameseiten könnte man mit einem Spider und Parsen herausfiltern.

Share this post


Link to post
Share on other sites
QUOTE

Bei IBM ist die Seite größtenteils weiß, bei einem anderen Ergebnis sind Text und Menü völlig miteinander vermischt.

Eine Lösung für das Problem habe ich fast nicht. Einzig die Frameseiten könnte man mit einem Spider und Parsen herausfiltern.


Es gibt viele Rendering-Probleme im Moment. Seiten von IBM, etc. sind da noch das kleinste Problem da sich IBM relativ gut um die Standard-Konformität kümmert.

Zum Frame-Problem:

Ich sehe da einige Lösungen:
1) Das Rausfiltern wäre relativ einfach.
2) Nur das "Haupt-Frame" anzeigen rendern.
3) Ich habe noch alternative "Firefox" und "Opera" als Renderer wie ich in einem anderen Thread schon erwähnt habe. Diese rendern sehr schön aber bringen wieder andere Probleme mit sich. Ich weiss z.B. nicht wie ich mit dem Firefox-Renderer mehrere Seiten gleichzeitig Multithreaded-Rendern kann...
4) Den Frame-Rendering-Code verbessern. Ich patche Momentan den DocType immer zu XHTML. Jede Seite wird vorher noch durch Tidy durchgelassen bevor sie gerendert wird damit der Code Valid ist und weniger Probleme auftreten.

--

Aber momentan geht es mir nicht darum jede Seite perfekt zu rendern. Die Vorschau-Bilder sind relativ klein und die gröbsten Rendering-Probleme kann ich beheben. Es geht eher darum dass der Benutzer einen kleinen Einblick in die Seite bekommt und keine perfekt-gerenderte Seite.

Share this post


Link to post
Share on other sites
hmm...
also ich finde das ganze hat schon was, ich kann mich aber zum Teil meinen Vorrednern anschließen:
Zumindest das Anzeigen der URL wäre sinnvoll.

Weiterhin ist die Suchengine doch sehr merkwürdig.
Suche ich nach meinem Domainnamen (ohne tld), so bekomme ich meine Seite nicht angezeigt, obwohl diese bei fast allen Suchmaschinen top geranked ist.
Stattdessen kommen viele alte Seiten, einige Videos von mir (von youtube), etc...

schon komisch.

Ansonsten eine echt gute Idee, bin mal gespannt wie es weiter geht.
LG
André

Share this post


Link to post
Share on other sites
nur ein tipp falls ihr lucene einsetzen wollte, verwendet in keinem fall die php implementierung von zend - selbst ein index auf papier ist schneller wink.gif

sphinx soll mittlerweile auch wieder besser geworden sein

Share this post


Link to post
Share on other sites
Gute Idee und bisher auch ganz gut umgesetzt! Aber:
- die Screnshots der Webseiten werden teilweise noch nicht korrekt erstellt (http://213.239.204.40/render?frame=rahmen-klein-black&url=http://www.oracle.com/technology/tech/xml/index.html)
- es gibt - wie schon von anderen bemerkt - ein Problem mit Umlauten und Sonderzeichen
Ihr könntet das Ganze dann auch noch um einen Thumbshot-Service erweitern, sodass ihr neben der Suchmaschine einen zweiten guten Dienst hättet.
____________________

Es gibt aber ein Problem: Die Anzeige mit den Bildern darf nicht euer einziger Vorteil bleiben! Ihr müsst super Ergebnisse liefen können. Denn wenn ihr später mal Google überholt HÄTTET ( biggrin.gif ), dann könnte Google einfach auch solche Thumbnails statt Beschreibungen liefern und wäre wieder vorne... wink.gif

Share this post


Link to post
Share on other sites
QUOTE

nur ein tipp falls ihr lucene einsetzen wollte, verwendet in keinem fall die php implementierung von zend - selbst ein index auf papier ist schneller

Danke für den Tipp. Wäre zwar sowieso nicht auf die Idee gekommen die PHP-Version zu benützen, aber nehme mal an dass die anderen auch nicht viel schneller sind.

QUOTE

Ihr könntet das Ganze dann auch noch um einen Thumbshot-Service erweitern, sodass ihr neben der Suchmaschine einen zweiten guten Dienst hättet.

Naja mal schauen... Wenn jemand Interesse hat an einem Thumbshot-Serivce kann er sich melden. Aber ich hätte ja auch nicht viel davon

QUOTE

Es gibt aber ein Problem: Die Anzeige mit den Bildern darf nicht euer einziger Vorteil bleiben! Ihr müsst super Ergebnisse liefen können. Denn wenn ihr später mal Google überholt HÄTTET (  ), dann könnte Google einfach auch solche Thumbnails statt Beschreibungen liefern und wäre wieder vorne...

Naja wäre auch egal oder. Wenn Google uns kopieren würde wäre ich schon happy wink.gif.

Aber wir werden schon noch ein paar coole Features einbringen. An Google kommt man sowieso nicht ran, ich kann mir im Moment nicht mehr als 2 Server leisten und Google hat Gerüchten zufolge mehr als 1'000'000 Server ohmy.gif.

Ich wäre am ehesten am Servern interessiert falls jemand von euch hat. Im Gegenzug könnte er z.B. die Suchmaschine auf seiner Website einbinden oder an den Einnahmen beteiligt werden.

Bisher hatte ich auch erst 8 bis 16 Stunden Aufwand für die Seite, einige Teile hatte ich schon früher für andere Projekte gemacht... Also wenn ich mal 2 Tage mit einer Lungenentzündung aus Interesse ein kleines Projekt mache, möchte ich auch nicht gleich besser als Google sein laugh.gif

Share this post


Link to post
Share on other sites
Hey, ich hab meine Site sofort gefunden! (also Format bei mir okay wink.gif ) Sieht echt gut aus mit Screenshots, das nenne ich eine fortschrittliche Suchmaschine!

Nur das "Suche"-Zeichen war nirgends zu finden, die Suchmaschine fand ich nur über den Simpsons-Link bzw. auf der Home-Seite funktionierte die Frage-Funktion nicht.

Ja, die Url sollte angegeben werden, wäre hilfreich.

Viel Erfolg beim Überholen der Großen!

Hätte ich genug Geld, würde ich gleich investieren.

Share this post


Link to post
Share on other sites
QUOTE

Nur das "Suche"-Zeichen war nirgends zu finden, die Suchmaschine fand ich nur über den Simpsons-Link bzw. auf der Home-Seite funktionierte die Frage-Funktion nicht.

Hmm ja, man kann mit der Enter-Taste die Suchabfrage ausführen. Und das auf der Home-Seite ist keine Frage-Funktion sondern ein Chat wink.gif. Die dort gestellten Fragen werden zu meinem MSN weitergeleitet und ich kann sie dort auch beantworten.

--

Also es sollte nun die Domain sowie eine kurze Beschreibung (= <title>) angezeigt werden wenn man mit der Maus über den Link fährt.

Beispiel:
Suche nach "madonna"

Share this post


Link to post
Share on other sites
Guest
Schön was fürs Auge.

Der weitaus grösste Teil der Internetbenutzer sucht ja was fürs Auge.
Schön, dass es dann auch eine passende Suma gibt.

Die linktexte sind auch gut, obwohl ein bisschen mehr Beschreibung drin sein könnte.
Aber das kann auch Gewohnheitsache sein.
Wahrscheinlich bekommt man bei häufiger Nutzung bereits nach ein paar Tagen
ein Auge für gute Treffer.

Ausserdem ist die Yahoo Api ist doch sehr begrenzt.

Vielleicht könnte man die Ergebnisse noch nach Beliebtheit gewichten
und social-bookmark-seiten mit anzapfen oder Alexas "mover und shaker".

Ist halt noch die Geschwindigkeit,... cool.gif

Share this post


Link to post
Share on other sites
Guest
Hallo Joel,

deine Arbeit finde ich klasse. Die Hintergrundfarbe könnte etwas freundlicher sein. Aber das ist Geschmacksache. Wünsche dir noch viel Erfolg mit deinem Projekt.


MfG

Share this post


Link to post
Share on other sites
Die Idee ist wirklich gut.
Leider klappt es mit dem Rendering noch nicht. Aber wenn ihr das in den Griff bekommt, dann werded ihr euren Erfolg haben (oder aufgekauft werden).

Cheers, René

Share this post


Link to post
Share on other sites
QUOTE

Sieht noch eher durchwachsen aus. Enzian scheint oft fast leere Seiten zu bevorzugen.
Beispiel:
http://www.enzian-media.ch/search?query=kredite

Ist Momentan noch ein Problem mit den Framesets. Das Problem ist lokal schon behoben, jedenfalls wird dann die Anzahl weisser Seiten stark sinken. Kann natürlich immer noch passieren dass dann weisse Seiten erscheinen weil z.B. Flash und JavaScript nicht ausgeführt wird.

Share this post


Link to post
Share on other sites
Interessant, ich habe auch grade über den Aufbau einer eigenen Suchmaschine nachgedacht.
Nur werde ich leider nicht dazu kommen, da letzten Monat meine kleine Tochter geboren wurde und das meine Zeit für private Projekte drastisch kürzt. biggrin.gif

Mir ging es dabei darum, eine Suchmaschine zu etablieren, die die Relevanz einer Webseite nicht versucht aus Randindizien wie Verlinkung oder Worthäufigkeiten zu abstrahieren sondern die Beurteilung dem menschlichen Verstand überläst indem man sie mit einem Bookmarking-Service verbindet.
Keine neue Idee aber eine für die ich bisher noch keine saubere Umsetzung gesehen habe.

Im Prinzip soll aus den gespeicherten Tags der User einen anonymisierten Suchindex extrahiert werden der die Relevanz anhand der Häufigkeit der Tags bemisst. Und ein, zwei weiteren kleinen Features. Was ich bei bisherigen Bookmark-Services komischerweise vermisst habe.

Wenn jemand Interesse daran hat die Idee aufzugreifen kann ich ihm gern ein Grobkonzept schicken. smile.gif
Das würde sich sicher auch gut mit der Suchergebnissdarstellung von Joel kombinieren lassen.


Share this post


Link to post
Share on other sites
Schöne Idee, gefällt mir gut!

Wäre eventuell noch eine Auswahl bei der Suche sinnvoll:
- deutsche Seiten
- englische Seiten

So kann man dem User eventuell mehr Freiheit bieten.

Viele Grüße
Konstantin Ehlers

Share this post


Link to post
Share on other sites
geniale idee, trifft genau den zeitgeist, möglichst schnell viel erfassen zu können ohne gross lesen zu müssen.

ich würde die bilder etwas kleiner machen damit man mehr drauf bringt und erst wenn man mit der maus rüberfährt das bild grösser wird

Share this post


Link to post
Share on other sites
@Joel: Meine Site finde ich gleich, wenn ich die Domain ganz eingebe, sehe auch den Link, wenn ich mit der Maus drüberfahre, aber unter dem allgemeinen Stichwort "Lektorat", wo ich bei Google.ch derzeit an 9.Stelle stehe, tauchen nur wenige Seiten auf und ich schon gar nicht. Gibt es da noch weitere Seiten, welche ich nur durch eine Taste erreiche?

Wär aber schon gut, wenn es ein Suche-Zeichen gäbe oder ein Hinweis auf die Enter-Funktion, weiß ja nicht jeder.

Ansonsten: Eine tolle Sache, nur nicht entmutigen lassen durch die Kinderkrankheiten!

Dann ranke mich bitte mal schnell auf Platz 1, kriegst auch einen Riesen-Knuddy! biggrin.gif

Share this post


Link to post
Share on other sites
Hallo Zusammen,

Es gibt nun die Möglichkeit die Hintergrundfarbe zu ändern oder ein Hintergrundbild zu setzen.

Einfach zum Beispiel in die Query-Zeile folgendes eingeben und das Hintergrundbild ist für die aktive Session geändert:

CODE

background:url(http://www.busyboo.com/wp-content/uploads/2007/06/madonna-hm.jpg)


(Einfach im Google nach einem "Wallpaper" seines Lieblingsstars suchen, oder kA, ein Bild seiner Freundin uploaden smile.gif. Probiert das doch mal aus...). Falls mir mal langweilig ist werde ich das so machen, dass man direkt sagen kann background:Madonna und es sucht ein entsprechendes Wallpaper tongue.gif

Was auch geht sind englische Namen von CSS-Farben
CODE

background:pink


Oder die Farb-Codes
CODE

background:#EFEFEF


Okay, hat zwar niemand verlangt aber es gibt vielleicht Leute denen das Grau nicht gefällt. wink.gif. PS: Falls beim Suchen die Rahmen oder das Logo sich nicht schön an das Hintergrundbild anpassen sollten einfacht mit ALT+RELOAD die Seite sauber nachladen.

PS: So sollte das dann ungefähr aussehen:

post-7-1204021840.ibf

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this