ARtisan Tech

Distributed Search: MJ-12, YaCy und 80legs

Distributed Search Engine

Verteiltes Suchen, Distributed Search Technique oder Cloud-Searching sind Begriffe, die das Suchen im WWW beschreiben, allerdings crawlen dabei nicht die Suchmaschinen selbst die Domains und indizieren den Content, sondern die Peer-To-Peer-Nutzer, die die Plugins oder Tools verwenden.

Majestic 12

Der Bot MJ-12 (Codename Majestic 12 für ein Geheimkomitee) war eine der ersten “Suchmaschinen”, die über verteiltes Suchen Suchergebnisse bereitstellen. MJ-12 vergleicht sich selbst mit der Technik von SETI@home. Als Plugin für den Firefox ist MJ-12 ein Informationstool, welches weitere themenrelevante Seiten zur angezeigten Seite vorschlägt.

Bei einigen Kundenprojekten mussten wir feststellen, dass der MJ-12-Crawler nicht die robots.txt berücksichtigt und die Seiten in den SERPs auftauchen.

YaCy

YaCy.net (von Yet another Cyberspace) preist sich selbst als freie Suchmaschinensoftware an. Die Software ist für Windows, Mac und Linux erhältlich. YaCy wird über ein Web-Interface bedient und kann optional auch als Suchlösung im Intranet verwendet werden oder als transparenter Proxy dienen. Standardmäßig arbeitet YaCy mit den Netzen von freeworld, es sind aber auch TOR hidden services zu finden. Aktuelle Crawl-Statistiken und umfangreiche Admin-Einstellungen machen YaCy zu einer sinnvollen Erweiterung im Intranet oder als Ersatz/Ergänzung zu den üblichen Suchmaschinen. Ein weiteres Feature ist der direkte SERPs-Vergleich mit gängigen Suchmaschinen in vertikaler Ansicht.

User-Agent: yacybot (i386 Linux 2.6.28-17-generic; java 1.6.0_0; Europe/en) http://yacy.net/bot.html

80legs

80legs.com ist ein kommerzieller Dienst, der Entwickler unterstützen soll Suchmaschinenabfragen per API in eigene Applikationen zu integrieren. Bei bis zu 100.000 Pages kann 80legs kostenlos genutzt werden. 80legs integriert sich auch in die Eclipse IDE oder die NetBeans IDE. Würde mich über weitere Erfahrungen mit 80legs freuen, da momentan im Netz nicht wirklich interessante Informationen zu finden sind.

User-Agent: Mozilla/5.0 (compatible; 008/0.83; http://www.80legs.com/spider.html;) Gecko/2008032620

Leave Comment