Naznachenie i vozmozhnosti sistemy GTSearch
10.11.2003 18:19 | S. V. Ayukov/GAISh, Moskva
Poiskovaya mashina GTSearch prednaznachena dlya raboty s veb-dokumentami (dokumentami, dostupnymi s veb-serverov po protokolu HTTP). Ona pozvolyaet vypolnyat' poisk dokumentov po zadannym klyuchevym slovam i imeet raznoobraznye soputstvuyushie funkcii.
Sistema GTSearch sozdana pri podderzhke Rossiiskogo fonda fundamental'nyh issledovanii (granty 02-07-90222-v i 03-07-90187-v) i kompanii Delta-Soft.
Rabochaya ekspluataciya sistemy nachata v noyabre 2003 goda v ramkah proektov Poisk po MGU i Poisk po astronomicheskim saitam Rossii.
Funkcii i vozmozhnosti GTSearch
Osnovnaya funkciya poiskovoi mashiny GTSearch (Generic Text Search) - poisk po klyuchevym slovam v dokumentah, dostupnyh po protokolu HTTP. Dokumenty perekachivayutsya s veb-serverov na lokal'nyi komp'yuter i po nim stroitsya tak nazyvaemyi "obratnyi indeks", kotoryi daet vozmozhnost' po zadannym klyuchevym slovam iskat' dokumenty, soderzhashie eti slova. Naidennye dokumenty ranzhiruyutsya v sootvetstvii s kriteriyami relevantnosti: polozheniem slov vnutri dokumenta, blizost'yu klyuchevyh slov drug k drugu. Takzhe mozhet uchityvat'sya kolichestvo vneshnih ssylok na dokument dlya vydeleniya "vazhnyh" dokumentov.
Krome poiska, GTSearch mozhet ispol'zovat'sya dlya organizacii raboty s veb-dokumentami: pokaz spiskov dokumentov (obshii spisok, posaitovyi spisok i dr.), pokaz naibolee svezhih dokumentov (ili naibolee staryh dlya vyyavleniya davno ne obnovlyavshihsya), lokal'noe hranenie i izvlechenie kopii dokumentov, razbienie mnozhestva dokumentov na rubriki i prosmotr rubrik.
Oblast' primeneniya i reshaemye zadachi
Poisk po saitu: organizuite poisk po vashemu saitu ili neskol'kim saitam na sovremennom urovne. Nikakih special'nyh dorabotok saita, kak pravilo, ne trebuetsya (za isklyucheniem dobavleniya formy poiska).
Tematicheskii poisk: sobrav kollekciyu veb-resursov na zadannuyu temu (naprimer, komnatnye rasteniya), organizuite poisk po nei. Eto otlichnoe dopolnenie k tematicheskomu saitu (naprimer, saitu firmy, proizvodyashei gorshki ili udobreniya), a takzhe reklamnaya ploshadka s strogo celevym traffikom. Dlya kachestvennogo funkcionirovaniya tematicheskogo poiska neobhodimo podderzhivat' aktual'nyi spisok saitov po teme.
Podderzhka kataloga resursov: poisk yavlyaetsya otlichnym dopolneniem k katalogu veb-resursov. Kak pravilo, katalog slozhnee v obrashenii, chem poisk, poetomu dlya neterpelivogo (ili ochen' zanyatogo) pol'zovatelya poisk pozvolyaet sil'no sokratit' vremya nahozhdeniya nuzhnoi informacii na katalogizirovannyh resursah. GTSearch imeet vstroennye sredstva dlya integracii s katalogami resursov (podderzhka rubrik).
Monitoring saita ili gruppy saitov: organizuite postoyannyi obhod nuzhnyh saitov, vyyavlenie nedavno izmenivshihsya dokumentov i poisk po nim. Eto nadezhnyi sposob ne propustit' nichego novogo, prichem obnovlennye i vnov' poyavivshiesya dokumenty mogut byt' predstavleny v vide udobnogo spiska, otsortirovannogo ili po setevomu imeni (URL), ili po vremeni poslednei modifikacii.
Spisok vozmozhnostei
- Izvlechenie indeksiruemyh dokumentov proizvoditsya po standartnomu protokolu HTTP, chto pozvolyaet obrabatyvat' lyubye saity; dostupa k failovoi sisteme saita ne trebuetsya. Ne trebuetsya takzhe yavnogo soglasiya vladel'ca saita na indeksaciyu. V to zhe vremya podderzhivaetsya upravlenie oblast'yu indeksacii cherez standart robots.txt.
- Imeetsya gibkoe upravlenie mnozhestvom dokumentov, podlezhashih indeksacii (vklyuchenie/isklyuchenie grupp dokumentov po shablonam dlya URL).
- Vozmozhna indeksaciya dokumentov v formatah, otlichnyh ot HTML i teksta, naprimer Microsoft Word, Posctscript, PDF.
- Processy kraulinga/indeksacii i poiska razdeleny vo vremeni i diskovom prostranstve. Eto pozvolyaet vypolnyat' ih parallel'no, bez ostanovki poiskovogo servisa.
- Server poiska mozhet rabotat' na otdel'noi mashine dlya udobstva administrirovaniya ili povysheniya proizvoditel'nosti.
- Poisk po klyuchevym slovam vozmozhen po kriteriyam "i", "ili", "ne". Imeetsya poisk fraz (slov, sleduyushih drug za drugom); frazy takzhe mogut uchastvovat' v operaciyah "i", "ili", "ne".
- Poiskovaya sistema ispol'zuet sovremennye algoritmy podscheta relevantnosti dokumenta dannomu zaprosu, uchityvayushie: chastotnost' slova v dokumente; polozhenie slova v dokumente (HTML tegi); chastotnost' slova v kollekcii dokumentov; poziciyu slova ot nachala dokumenta; blizost' slov drug k drugu v dokumente.
- Rezul'taty poiska (spisok naidennyh dokumentov) mogut byt' predstavleny v lyubom formate; dlya kazhdogo naidennogo dokumenta privodyatsya: spisok setevyh imen (URL), pod kotorymi izvesten dokument; razmer; vremya poslednei modifikacii; vremya poslednego obhoda; kodirovka (dlya dokumentov na russkom yazyke); format (HTML, tekst, PDF i t.p.); nachalo dokumenta; fragmenty dokumenta, soderzhashie klyuchevye slova; spisok rubrik, k kotorym prinadlezhit dokument.
- Imeetsya vozmozhnost' poiska dokumentov, pohozhih na zadannyi dokument ili zadannyi tekst.
- Imeetsya vozmozhnost' poiska po vsem formam slov, v t.ch. dlya slov, neizvestnyh slovaryu (po algoritmam obrezaniya); v odnom zaprose rasshirenie po formam mozhno zadavat' dlya kazhdogo slova individual'no.
- Dokumenty, skachannye s servera, hranyatsya lokal'no i mogut vydavat'sya po zaprosu (naprimer, v sluchae, kogda original'nyi dokument vremenno nedostupen iz-za setevyh problem ili byl udalen). Dlya preobrazovannyh dokumentov (naprimer, Microsoft Word, PDF) vydaetsya tekst, poluchennyi v rezul'tate preobrazovaniya. Eto pozvolyaet bystro prosmatrivat' na ekrane soderzhimoe dokumenta bez ispol'zovaniya original'noi programmy chteniya (Microsoft Word, Adobe Acrobat Reader).
- Rezul'taty poiska mogut gruppirovat'sya po saitam, po saitam/katalogam, saitam/podkatalogam dlya bolee naglyadnogo predstavleniya. Pri neobhodimosti vozmozhno razvorachivanie sgruppirovannyh rezul'tatov.
- Slova, ne nesushie soderzhatel'noi informacii (soyuzy, predlogi) po umolchaniyu ignoriruyutsya pri poiske dlya uskoreniya raboty, no imeetsya vozmozhnost' yavnogo vklyucheniya ih v zapros.
- Rezul'taty poiska mogut byt' otsortirovany po date poslednei modifikacii kak dlya vyyavleniya samyh novyh dokumentov, tak i samyh staryh. Takzhe vozmozhna fil'traciya rezul'tatov poiska po diapazonu vremeni poslednei modifikacii.
- Imeetsya vozmozhnost' vydachi spiska indeksiruemyh saitov, otsortirovannogo kak v alfavitnom poryadke, tak i po kolichestvu indeksiruemyh dokumentov na kazhdom saite.
- Imeetsya vozmozhnost' vydachi spiska indeksiruemyh dokumentov; spisok dokumentov mozhet byt' otfil'trovan po rubrikam, saitam, diapazonam vremeni poslednei modifikacii; otsortirovan v alfavitnom poryadke ili po date poslednei modifikacii.
- Kazhdomu dokumentu mozhet byt' prisvoen proizvol'nyi spisok rubrik; rubriki mogut ispol'zovat'sya dlya ogranicheniya oblasti poiska/prosmotra spiska dokumentov, a takzhe dlya klassifikacii dokumentov.
- Vozmozhen poisk po otdel'nomu saitu, chasti otdel'nogo saita ili proizvol'noi sovokupnosti saitov/chastei saitov. Spiskam saitov i chastei saitov mozhet byt' prisvoeno korotkoe imya.
Ogranicheniya
Osnovnoe ogranichenie -- kolichestvo i ob'em obrabatyvaemyh dokumentov. S odnoi storony, GTSearch ne ispol'zuet evristicheskih metodov pri poiske i vsegda vydaet tochnye rezul'taty. Obychno v bol'shih poiskovyh sistemah tochnost' poiska zavisit ot zagruzki sistemy, no v GTSearch eto ne tak. Krome togo, GTSearch ne imeet sredstv dlya parallelizacii poiska. Poetomu na sovremennom komp'yutere s processorom Intel s chastotoi 2-3 GGc razumnyi predel chisla obrabatyvaemyh dokumentov sostavlyaet okolo 10 mln. (prinimaya srednii razmer dokumenta ravnym 10KB). Proizvoditel'nost' nachinaet zametno padat' pri chisle dokumentov, prevyshayushem 1 mln.
Otmetim, chto obshee kolichestvo dokumentov v Rossiiskom segmente interneta v 2003 godu sostavlyaet poryadka 100 mln. (po dannym krupneishih poiskovyh sistem Rambler i Yandex). Eti dokumenty ohvatyvayut tysyachi tematik, i, takim obrazom, dlya organizacii tematicheskogo poiska ne trebuetsya obrabatyvat' bolee neskol'kih millionov dokumentov.
Publikacii s klyuchevymi slovami:
poisk informacii - poiskovaya sistema - katalog astronomicheskih resursov
Publikacii so slovami: poisk informacii - poiskovaya sistema - katalog astronomicheskih resursov | |
Sm. takzhe:
Vse publikacii na tu zhe temu >> |