Edu Doc

КАТЕГОРИЯ:


Астрономия- (809) Биология- (7483) Биотехнологии- (1457) Военное дело- (14632) Высокие технологии- (1363) География- (913) Геология- (1438) Государство- (451) Демография- (1065) Дом- (47672) Журналистика и СМИ- (912) Изобретательство- (14524) Иностранные языки- (4268) Информатика- (17799) Искусство- (1338) История- (13644) Компьютеры- (11121) Косметика- (55) Кулинария- (373) Культура- (8427) Лингвистика- (374) Литература- (1642) Маркетинг- (23702) Математика- (16968) Машиностроение- (1700) Медицина- (12668) Менеджмент- (24684) Механика- (15423) Науковедение- (506) Образование- (11852) Охрана труда- (3308) Педагогика- (5571) Полиграфия- (1312) Политика- (7869) Право- (5454) Приборостроение- (1369) Программирование- (2801) Производство- (97182) Промышленность- (8706) Психология- (18388) Религия- (3217) Связь- (10668) Сельское хозяйство- (299) Социология- (6455) Спорт- (42831) Строительство- (4793) Торговля- (5050) Транспорт- (2929) Туризм- (1568) Физика- (3942) Философия- (17015) Финансы- (26596) Химия- (22929) Экология- (12095) Экономика- (9961) Электроника- (8441) Электротехника- (4623) Энергетика- (12629) Юриспруденция- (1492) Ядерная техника- (1748) Arhitektura- (3434) Astronomiya- (809) Biologiya- (7483) Biotehnologii- (1457) Военни бизнесмен (14632) Висока technologies- (1363) Geografiya- (913) Geologiya- (1438) на държавата (451) Demografiya- ( 1065) Къща- (47672) журналистика и смирен (912) Izobretatelstvo- (14524) външен >(4268) Informatika- (17799) Iskusstvo- (1338) историята е (13644) Компютри- (11,121) Kosmetika- (55) Kulinariya- (373) културата е (8427) Lingvistika- (374) Literatura- (1642) маркетинг-(23702) математиците на (16968) Механична инженерно (1700) медицина-(12668) Management- (24684) Mehanika- (15423) Naukovedenie- (506) образователна (11852) truda- сигурност (3308) Pedagogika- (5571) Poligrafiya- (1312) Politika- (7869) Лево- (5454) Priborostroenie- (1369) Programmirovanie- (2801) производствено (97 182 ) индустрия- (8706) Psihologiya- (18388) Religiya- (3217) Svyaz (10668) Agriculture- (299) Sotsiologiya- (6455) на (42831) спортист строително (4793) Torgovlya- (5050) транспорт ( 2929) Turizm- (1568) физик (3942) Filosofiya- (17015) Finansy- (26596) химия (22929) Ekologiya- (12095) Ekonomika- (9961) Electronics- (8441) Elektrotehnika- (4623) Мощност инженерно ( 12629) Yurisprudentsiya- (1492) ядрена technics- (1748)

Информация за извличане езици




Лекция 3

презентация за обучение

въпроси:

1) за извличане на информация езици (Ирландия): концепция и структура.

2) Подредете IRL лексикални единици.

3) Изискванията за IRL

Въпрос 1. извличане на информация езици: структура и изисквания. Наред с многобройните природни езици в човешкото общество станаха широко разпространени и различни изкуствени езици. Те са създадени от хора за решаване на всички проблеми в областта на науката и технологиите (компютърни езици), за комуникация между хората (Есперанто, професионални диалекти). Сред изкуствени езици са от особена важност да се вземе информация езици.

Необходимостта и използването на информация за обработка на език информация произхожда и продължава да се задълбочава с подобряването на информационните технологии в обществото. Машина език - изкуствен, формален език, предназначени за запис на информацията, съхранена в паметта на компютъра, за описание на програмите (алгоритми), което показва, реда и последователността от команди за въвеждане на данни от паметта, преработка и преобразуване на входящата информация в машината.

За търсене на информация, разработена и широко използвани изкуствени езици като извличане на информация. Информация - извличане език (IRL) - система за изкуствен знак за описване (с индекс) на главния семантичното съдържание на текстове (документи), или части от тях, както и да изразят семантичното съдържание на исканията за информация за изпълнение.

IRL структура от същия тип с формалната структура на информацията и включва разпределението на следните нива:

- Phonetic;

- Лексикално;

- Синтаксис;

- Текст.

Елементите на всяко ниво са обединени в syntagm и парадигма.

Фонетично равнище - това е азбуката (елементарен списък характер). The IRL за тази употреба естествени езикови знаци: кирилица, латиница, арабски и римски цифри, препинателни знаци.

Лексикално ниво или лексика - всички използвани в IRL лексикални единици. Лексикално единица - най-малката смислена последователност от символи, определени от дизайна на отделните думите на един език. Лексикални единици и формират речника на езика.

Въпрос 2. Оптимизиране IRL лексикални единици. За да се организират IRL лексикални единици са парадигматичните отношения, които всъщност определят и дефинират структурата на езика.

Парадигмални отношения (аналитична) - тази екстра-текстова, обективно съществуващи семантичните отношения между лексикалните единици, които са монтирани и фиксирани в речника език, въз основа на нуждите на извличане на информация. Парадигмални отношения отчитат приликите или разликите в размера и съдържанието на лексикални единици (концепции). Отношенията са разделени на: силна (логично) и слабости (асоциативен).



Обхват на понятието - набор от обекти, които са показани в тази концепция. Например, "периодични" включва вестници, списания. Броят на стоките, включени в обема, може да бъде в края (на света), безкраен (номер), има отделни понятия (Луната).

Смисълът - това е отразено в комплекта ума на свойства, специфични за всеки обект в обхвата на понятието.

Силни страни (логически) парадигматичните взаимоотношения включват:

· Еквивалент (еквивалентност) - връзката между понятията, обемът на които са еднакви, но има разлики в съдържанието. Например, отпечатан документ - документа, издаден; ръкописен документ - документ, непубликуван.

· Представяне - връзката между понятията, когато обемът на една или повече от понятията включени в обхвата на друга. Например, вторични документи (б) включва резюмета, резюмета (вида).

· Подчинение - между специфични понятия са еднакво подчинени на един общ. Например, книга, брошура, флаер - видове непериодични издания.

· Преходи - между понятията, съдържанието на който е различен, но обемът на припокриване. Например, студенти и туристи, писатели и учени.

· Противоположностите - между подчинени понятия, които в неговото съдържание са несъвместими знаци, причинявайки обеми разминаване. Например, текстови документи и машинно четене на документи.

· Конфликти (kontradiktornosti) - между двете подчинени понятия, специфични символи, които не са съвместими, което причинява несъответствие количества от тези понятия. Тези понятия са взаимно изключващи се. Например, първични и вторични документи документи.

Слаби (асоциативни) парадигматичните отношения изразяват комуникация не между понятия и между самите обекти (процес, причини и следствия, система-елемент). При създаване IRL препоръчително да се определят тези асоциативни връзки:

· Всички - част (референтни и инструментите за търсене и директории, шкафове за ценни книжа).

· Система - елемент (Архив на Беларус промишленост и Националния исторически архив).

· Връзка на определяне: причина - ефект (застаряване на публикации и намалено търсене).

· Процес - оборудване (фотокопиране и фотокопие).

· Процес - материал (фотокопиране и хартия).

· Материал - продукта (дърво и хартия).

· The продукт - Производствен процес (хартия и документация).

· Точка - назначаване (магнитни дискове и запис).

· Наука - проучване на обекти (информатика и информационни).

· Наука - представители (Философия и Сократ).

Парадигмални отношения позволяват да комбинирате IRL лексикални семантични единици в групата - парадигма, елементите на която са собственост на взаимозаменяемост.

Също така съществуват парадигматичните syntagmatic отношения (синтаксис, граматика, текстови) отношения, която служи за установяване на семантичните отношения между лексикалните единици. Ние говорим за образователни политики и правила за тълкуване на IRL. правила за учредяване установи кои комбинации от елементарни символи са разрешени в изграждането на думи и фрази и правила за тълкуване - как трябва да разбираме тези думи и фрази.

Изразни средства syntagmatic отношения се наричат ​​граматика IRL. IRL трябва да има лексикален и граматичен средства, необходими за изразяване на основната семантичното съдържание на всеки текст или смисъл на всяко искане за информация за индустрията или предметът да бъде недвусмислено (позволи една интерпретация на всеки запис), удобен за алгоритмична сравнение и идентификация (пълно или частично) записва основния семантичното съдържание на текстовете и семантичното съдържание на исканията за информация.

Една от основните характеристики на IRL е семантична сила - способността да се прехвърлят изцяло и точно съдържанието на съобщенията.

Въпрос 3: Изисквания към IRL. В разработването на специфична информация за извличане езици, се вземат предвид:

- Спецификата на производството или на обекта, за който е създаден на езика,

- Характеристики на текстове, които образуват масив за търсене

- Естеството на информацията трябва да се срещнат, което създава език.

Най IRL основна лексика (лексикон) се определя и неговата оферта е фрагмент от лексикон на естествен език. Избрано от естествен език думи и фрази, заедно формиращи основната лексика, служи като азбуката на IRL. Условия за образование в езици изпълняват синтаксиса на функция. Някои IRL основна лексика се дефинира (изцяло или частично) на метода на производство, който се състои във факта, че за такова IRL правила образование определя като на тази азбука изграждане думи IRL, и на тези думи - изрази (фрази), и коя от тях ще добре оформени. IRL е различен от езика и информацията от двигателя. В средата на 20-ти век. IRL като широко използван библиотека-библиографска класификация и класификацията на Характеристиката тип).

Основната отличителна черта на IRL - просто лексика и граматика в сравнение със същите елементи на естествен език. Изисквания за IRL: недвусмислени, точни и недвусмислени семантика (IRL всеки запис трябва да бъдат точно определени и една единична стойност); голяма сила на семантична (лексика трябва да включва всички условия, необходими за индексиране на документи и заявки); удобство за използване; простота и малкия брой на граматическите ресурси.

Лекция 4

Класификация на информация език извличане

презентация за обучение

въпроси:

1) Видове и IRL.

2) IRL тип ЕВРОВОК.

3) Метод за изграждане и тип граматика IRL ЕВРОВОК.

Въпрос 1. Видове и IRL. В момента има много видове и видове IRL. Най-често срещаните подходи за класифициране IRL са: класификация F.Lankastera, VINITI класификация, класификация ги LGIK. Крупская. Последното класиране е най-логичното. Тя се основава на три специфични за отделните видове черта, която да вземат предвид основните структурни елементи на езика: лексика, и paradigmatics синтагматика. Тези функции включват начин да се уточни лексикална единица метод (комбинация от) лексикални единици и метода на отчитане парадигматичните отношения кодиране. Като има предвид възможността и автоматизираното търсене.

1) По метода на присвояване на лексикални единици: контролирано и неконтролирано. Контролиран IRL - език, лексика, която е зададена предварително с помощта на речници и маси (УДК, BBK). Неконтролираното IRL - език, лексика, която не се дава на речника, и се основава на избора на неограничен набор от естествен език от гледна точка на индексираните съобщения.

2) В координацията на лексикални единици (на запис): некоординирани и координирани. Некоординирани IRL - езици, които не позволяват на координацията на техните лексикални единици или в процес на индексиране, всеки процес на търсене. Координирани IRL - езици, в които лексикална единица се координират помежду си или са в процес на индексиране, или в процеса на търсене. Има Predkoordiniruemye и postkoordiniruemye IRL. Predkoordiniruemye езици регламентират влизането на лексикална единица в индекса на предварително определени правила и осигурява за своя твърд консистенция. Обикновено се използва в ръчно търсене. Postkoordiniruemye IRL - езици, в които лексикална единица са определени в процеса на индексиране и се комбинират помежду си само в процеса на търсене.

3) с и без парадигматичните отношения: йерархична, не-йерархични и инкрустирани. Езици на йерархичната структура е йерархична класификация - клас система, която се разпределя на базата на концепцията за най-съществените характеристики, присъщи на тези понятия и да ги разграничат една от друга. Клас - набор от обекти, които имат една или повече общи характеристики на съдържание. Недостатък - невъзможността за организиране vneierarhicheskih отношения (йерархична модел на данните - невъзможността да се кръстосана заявка).

Пример за йерархична класификация:

1. Документи

1.1 Iconic

1.2 идеограмен

1.3 Текст

1.3.1 Основно

1.3.1.1 Непубликувани

1.3.1. 2 Публикуван

1.3.2 Средно

фасетиран Езици структура е фасетиран класификация - набор от аспекти, след последователно една с друга. В основата на изграждането на такава класификация е индуктивен метод, който включва изучаването на отделните субекти на снимачната площадка, намиращи се в тях общите основни характеристики и групиране на базата на най-новите термини, обозначаващи тези понятия.

Пример фасетиран класификация:

1 Документи за отчитане на форма знак

1.1 идеограмен

1.2 Iconic

1.3 Текст

2 документи метод разпределение

2.1 Непубликувани

2.2 Публикуван

3 Документи за периодичността на публикации

3.1 Non-рецидивиращ

3.2 Периодична

3.3 Активен

Езиците са продукт на една не-йерархична структура на емпирично подход към изграждането на IRL. Този подход включва създаването на език въз основа на действителното текст индексиране. От съдържанието на документа са избрани ключови думи, които се превръщат в лексикално единици IRL (TAST, азбучен ред класификация).

Специалният не-йерархична IRL, като се вземат предвид силните и слабите страни prardigmaticheskih отношенията отнася ЕВРОВОК език.

Въпрос 2. IRL тип ЕВРОВОК. Descriptor IRL - изкуствен информационни език, появяващи 1950. Възможността и необходимостта да им се създаде бяха причинени от редица обективни причини. През тези години, бяха разработени първата механизирана система за извличане на информация и опит, за да използвате компютъра за решаване на различни задачи, извличане на информация. Традиционните езици са предварително съгласувани tiap не отговаря на изискванията на механизирани и автоматизирани и в бъдеще да се намери информация. Интензивното търсенето на нови семантични средства е довело до създаването на принципно нов тип пост координира IRL. Основи на индексиране следните езици са положени от M.Tauba K.Muersa и в чужбина и в СССР V.P.Cherenina.

M.Taub през 1951 г., разработен IRL Uniterm, т.е. формализирани в единствено термини, списък на които може да бъде адекватно и точно предаване на съдържанието на документа и заявката. Координация Uniterm се случва в момента, съобщението за търсене, след получаване на искането. Въпреки това, този език не отговаря на уникалност изискването. И трябва да се подобри. В първоначалния си вид IRL Uniterm не се прилага. Но широкото IRL Uniterm с изкуствена граматика, която се нарича ЕВРОВОК.

Концепцията на Характеристиката влезе в компютърните науки K.Muers. (Descriptor - pozdnelat ЕВРОВОК, от латинската describo - .. Опишете). Той предложи uityvat синоними на език Uniterm и прилага лексикографски контрол върху използваните ключови думи, които е пълното им нормализиране и отстраняване на неяснота и няколко значения. K.Muers смята, че контролира лексика трябва да направят специална ЕВРОВОК речник

По този начин, на езика ЕВРОВОК - изкуствен език пост координира тип, построен на меренге официално речника на естествен език. За контролиране на лексиката създаден за извличане на информация речника (IPT) - контролиран речник езика лексикални единици от ЕВРОВОК, базирани на речника на естествен език, семантични картографиране отношения между лексикалните единици и проектиран да организира търсене на информация чрез индексиране на документи и / или искания. Всяка специфична IRL отразява концепцията на системата в знанията на домейн под формата на структуриран набор от условия и е в резултат на сериозна и упорита работа.

Въпрос 3. Метод за конструиране и тип граматика IRL ЕВРОВОК. Развитие на IPT се основава на следните стъпки:

1) Определяне на тематичния профил на IPT. Тема профил се определя чрез анализ на нуждите от информация на професионалисти.

2) Събиране на лексиката и формирането на справочника ключови думи. Dictionnaire - първоначалния набор от условия, които след това се подлага на обработка по време на семантична deskriptorizatsii. Масивът се формира чрез отстраняване на първични и вторични документи, и повече ключови думи. Понякога се използва справочна литература, специалисти от проучването. Основният проблем на този етап на формиране на ключови думи. Официални думи (предлози, съюзи, частици), следва да се считат за стоки без ключ; общи условия (методът, методът, и т.н.) трябва да се използва само в комбинация с други термини, тяхната стойност е конкретизирана. Ключовите думи могат да бъдат комбинации.

3) Изграждане на записи и формирането на лексикално-семантични индекса. Реализирани deskriptorizatsiya ключови думи (за приготвяне на речника ЕВРОВОК) и установяването на отношения между pradigmaticheskih дескриптори (за увеличаване на силата на семантичен език). Елиминира ключови думи неяснота чрез предоставяне на съответните обяснения - Relator термини (РИК - процес RECORD - нещо) всички думи са групирани в равностойност класове: Bezuslovnoekvivalentnye (= публикуваните документи печатни материали), както и условно еквивалент (техническо оборудване =)

След това се избира една от думите, като ЕВРОВОК. По този начин, на дръжката - лексикална единица IPT, от който се разбира нормализирана дума или фраза, изберете от много Shareware еквивалент дума за нейното предназначение. Имоти от ЕВРОВОК:

§ пълен израз на семантична стойност на този клас.

§ Краткостта и яснотата.

§ Честотата на срока на документа и текста на заявката.

Askriptor - лексикална единица на IPT, член на класа на еквивалентност на дръжката, която, когато индексиране на документи и заявки да бъдат заменени на дръжката. Резултати deskriptorizatsii: ЕВРОВОК речник - азбучен списък на дескриптори и askriptorov. Например:

АРХИВИ

Архив услуга

архивни институции

Архив центрове

Член askriptorov снабден с препратки да замени техните описания. Стандартът предлага три вида справки:

1. Askriptor - синоним ЕВРОВОК:

Основни публикации

виж първични документи

2. Askriptor, променливо комбинация от дескриптори (използва комбинация):

руски текстове

Испански на руски език

ТЕКСТОВЕ

3. Askriptory заменяеми несъвместими описания (използване на алтернативни):

Актуална информация

Испански и информация

Актуална информация

Следваща определен парадигматичните отношения. Този процес включва:

§ логически анализ.

§ Асоциативното анализ.

§ Прагматичен анализ.

Логически анализ - сравнение на обема на представените концепции дескриптори:

ПОРЪЧКИ

BP ORGANIZATSIONNO_RASPORYADITELNAYA документация (горе род)

ПОРЪЧКИ

HB поръчки на персонал (вижте по-долу)

Асоциативното анализ - сравнение на характеристиките на обекти, принадлежащи към някои концепции представени описания.

КАТАЛОГ

референтна система VC NAUNO (по-високо число)

АРХИВ

LF ОТДЕЛ (долна част)

Прагматичен Анализ - оптимизиране на структурата и състава на влизане Характеристиката. Преброяването: IPT региона, особено терминологични познания за индустрията

Структура Descriptor статия е, както следва:

D {жа; MB; MN; Ма}

където

D - дръжка за титлата;

Жа - askriptorov комплекта, принадлежащ към класа Характеристиката на еквивалентност;

MB - комплект от по-висока deskrpitorov;

MN - набор от подчинен askriptorov;

Ма - зададената асоциативен deskrpitorov.

Например, за да се справят:

АРХИВИ

с архивни услуги

архивни институции

Information Service

н Националният архив

РЕГИОНАЛЕН АРХИВ

и системи за архивно SERVICE

За askriptora:

архивен Service

виж АРХИВИ

4) Разработване на помощни индекси. Най-разпространени са три вида показатели: систематичен речник ЕВРОВОК показалеца, указател към йерархичните връзки и пермутация показалеца дескриптори. Системно Index - азбучен списък на описания (тематична, категоричен, смесен). Индексът на йерархични отношения - набор от класификационните дървета. Всяка характеристика може да се включи с повече от едно дърво. Пермутация индекс - списък на списъци, всеки от които съответства на един от най-важните думи в състава на лексикална единица. Проектиран да търсите лексикалните единици за специфични думи.

5) Осъществяване IPT.

6) Проверка и регистрация на IPT.

Основным способом уменьшения информационного шума является введение в ИПЯ грамматических средств, которые позволяют точно и полно выражать синтагматические отношения. Грамматические средства делятся на:

- фрагментирующие. Для разделения поискового образа на части. К ним относятся указатели связи (буквы, цифры, знаки);

- смыслоразличительные. Для указания смысловой роли различительных слов внутри фрагмента поискового образа. К ним относятся указатели роли.

ЛЕКЦИЯ 5