Ипя как разновидность искусственных языков. Семантические процессы при семном варьировании значения. Типы и виды ипя Способ задания лексических единиц

Ипя как разновидность искусственных языков. Семантические процессы при семном варьировании значения. Типы и виды ипя Способ задания лексических единиц

Типы и виды ИПЯ

Способ задания лексических единиц

Контролируемые - языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные системы классификации (УДК, ББК, классификация Дьюи).

Дескрипторные ИПЯ, а также язык ключевых слов - автоматический поиск.

Неконтролируемые - лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последнее время.

Порядок записи лексических единиц[править | править вики-текст]

Некоординируемые языки - не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).

Координируемые ИПЯ - языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

Предкоординируемые - связи между лексическими единицами устанавливаются перед поиском.

Посткоординируемые - когда связи между лексическими единицами устанавливаются только при поиске.

43. Правовой тезаурус.

правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.

Информационно-поисковый язык. Правовой тезаурус.

Одной из важных задач правовой информатики является лингвистическое обеспечение правотворческого процесса. Право не существует вне языка.

Ст.2 Закона об информации относит к средствам обеспечения автоматизированных информационных систем также и лингвистические средства.

В системе лингвистических средств обеспечения АИПС первое место занимает информационно-поисковый язык (ИПЯ).

В широком смысле язык – это знаковая система, используемая для сбора, хранения, обработки и передачи информации.

ИПЯ – это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью их последующего хранения и поиска.

ИПЯ по законодательству должен обеспечивать:

Эффективную формализацию правовых норм и нормативных актов

Высокую скорость поиска на компьютере информации

Оптимальный перевод нормативного текста с юридического языка на язык, доступный ЭВМ

Минимальный «шум», т.е. сведение к минимуму выдачу компьютером излишней информации

Полноту информационного поиска, т.е. получение всей необходимой информации для решения конкретных задач правотворчества

Любая информация для того, чтобы быть переделанной, должна соответствующим образом кодироваться, т.е. переводиться на язык специальных символов или сигналов.

Теория информационного поиска различает следующие типы ИПЯ:

Языки предметного типа – это алфавитно-предметные указатели к сборникам и отдельным нормативным актам и широко распространенные алфавитно-предметные рубрикаторы.

При использовании этого языка основная тема документа выражается одним или несколькими типовыми словами – рубриками. Например, существуют предметно-алфавитные указатели к Конституции РФ, к ГК РФ.

Язык классификационного типа – представляет собой классификатор отраслей законодательства.

Язык дескрипторного типа – обладает большой «семантической силой», т.е. способен полностью передавать смысл нормативных актов, выразить комбинацией дескрипторов (ключевое слово – объединяющее группу ключевых слов) любое понятие, характеризуются высокой степенью отражения смысла документов, наличием ключевых слов.

Дескрипторные ИПЯ делятся на:

языки, в которых не различаются логико-смысловые отношения между понятиями

языки, которые содержат в своем составе логико-смысловые отношения.

(особо) правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.

Задача – упорядочить и привести в систему лексические средства, используемые в правотворческом процессе.

В информатике тезаурус выполняет следующие функции:

используется для организации информационного поиска (информационно-поисковый тезаурус)

используется как лингвистическое средство в процессе решения правотворческих задач (полный словарь терминов, определения юридических понятий, комментарии, данные о количестве дескрипторов)

используется как средство, измеряющее смысл сообщения (тезаурус пользователя – совокупность сведений, которыми располагает пользователь)

выступает в качестве важнейшего средства поиска латентной информации

Существуют тезаурусы различных типов:

общеправовой (102 тысячи слов и словосочетаний). Сейчас не применяется.

Тезаурус, специализированный по отраслям права. (например, Eurovoc).

Подготовка правовой информации к машинной обработке:

метризация; кодирование; индексирование и рубрицирование.

В широком смысле под метризацией понимается описание определенной совокупностью числовых характеристик. В зависимости от того, что используется в качестве характеристик выделяют два типа метризации: а) подсчет; б) измерение.

При измерении и подсчете в качестве средства выражения используются натуральные числа. При измерении используются единицы меры.

Объектами измерения могут выступать любые предметы материального мира, обладающие любыми свойствами, которые могут быть измерены или характеризуются количественными данными.

Под метризацией правовой информации следует понимать такую процедуру ее обработки в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.

Характеристики, полученные в результате измерения, могут выражаться как в абсолютных величинах, так и в относительных.

Кодирование правовой информации – это такая операция, при которой определенные данные заменяются сокращенными условными обозначениями (цифры, числа). Обратная операция называется декодированием.

Комбинацию символов называют кодом, а количество символов, входящих в кодовую операцию называют длина кода.

Для кодирования правовой информации используется несколько способов: точечный, контурный, точечно-зональный.

Одним из видов формализации правовой информации является индексирование – это процесс отбора из текста терминов (ключевых слов), которые, по мнению специалиста – юриста, отражают основное содержание темы. Далее такие термины преобразовывают в форму информационно-поискового языка.

Рубрицирование – это процедура присвоения определенной теме нормативного акта или запроса соответствующего индекса из рубрикатора, в котором за каждой темой закреплен свой индекс.

45. Метризация и кодирование.

Метризация. В широком плане под метризацией обычно понимается описание какого-либо объекта определенной совокупностью числовых характеристик. Непосредственным объектом метризации, в частности измерения, всегда является та или иная физическая величина, обычно именуемая параметром объекта познания. Вот почему данные, получаемые в результате этой процедуры, правомерно называть параметрической или измерительной информацией.

С учетом этого под метризацией правовой информации следует понимать такую процедуру её обработки, в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.

В зависимости от того, что избирается в качестве такой характеристики и что ею желают выразить, различают два вида метризации:

Подсчет. При подсчете в качестве средства выражения интересующих нас данных используют натуральные числа (например, указывают, что в данном регионе за названный период было выявлено 20 случаев нарушения законности при рассмотрении гражданских дел в судах).

Измерения. При измерениях в качестве средства выражения полученных данных наряду с натуральным числом используются принятые для данного вида измерений соответствующие единицы меры.

Метризация осуществляется с помощью измерительных приборов.

Кодирование. В широком смысле под кодированием понимаются операции замены каких-либо данных (например, текстовых) сокращенными условными обозначениями, как правило, цифровыми или символами . Обратная операция называется декодированием. Обычно эти операции используются как средство представления информации, характеризующей индивидуальные особенности объекта или исследуемого события, в виде последовательно расположенных символов абстрактного алфавита. Комбинацию таких символов называют кодом, а их количество, входящее в определенную кодовую комбинацию, - её длиной. Кодовые символы могут иметь различную форму. Чаще всего это цифры, буквы какого-либо алфавита, а также различного рода условные знаки и их сочетания (точка и тире, математические символы и т. п.).

Статьи

Сукиасян Э.Р.
Школа индексирования. Занятие 4. Требования к классификационным информационно-поисковым языкам. Школа индексирования

[ Библиотека. – 2004. – № 5. – c. 46-48 ]

Классификационные ИПЯ – библиотечно-библиографические или информационные классификационные системы (последние нередко называются рубрикаторами) насчитывают историю в несколько тысячелетий и широко распространены в современном мире. В подразделе 5.2.2 ГОСТ 7.59–2003 рассмотрены составные части и элементы классификационных ИПЯ, подробно охарактеризована типология классификационных индексов, система грамматических отношений, характерная для ИПЯ данного типа. Принципиально важным является приведенный в стандарте перечень применяемых в стране классификационных ИПЯ (подобного положения нет в аналогичном по содержанию Международном стандарте).
5.2.1. Классификационный ИПЯ представляют в виде универсальных или отраслевых таблиц классификации, состоящих, как правило, из основных и вспомогательных таблиц, алфавитно-предметного указателя и правил применения.
Определим приведенные понятия. Универсальные таблицы классификации – таблицы классификации по всем отраслям знаний; отраслевые таблицы классификации – таблицы классификации, включающие полные таблицы по соответствующей отрасли знания, сокращенную выборку из таблиц классификации по смежным отраслям, а также комбинированные индексы.
Стандарт устанавливает, что таблицы классификации состоят, как правило, из четырех частей:

  • основная таблица классификации – составная часть таблиц классификации, включающая иерархические таблицы классификационных делений по основным классификационным признакам. Определение этого термина в ГОСТ 7.74: часть классификационной таблицы, включающая классификационные записи, которые в совокупности исчерпывают предметную область;
  • вспомогательная таблица классификации – часть классификационной таблицы, выделенная из состава основной классификационной таблицы и включающая классификационные записи, которые используются, главным образом, для детализации классов основной классификационной таблицы (здесь надо добавить, что в основу таблиц положены вспомогательные дополнительные классификационные признаки);
  • алфавитно-предметный указатель к систематическому каталогу, АПУ – вспомогательный аппарат к систематическому каталогу, представляющий собой алфавитный перечень предметных рубрик, раскрывающих содержание отраженных в систематическом каталоге документов с указанием соответствующих классификационных индексов;
  • правила применения – термин очевиден и не требует особого объяснения. Иногда эта часть таблиц классификации называется иначе – общей методикой, методическими указаниями, или же правила применения излагаются вместе с описанием ИПЯ во введении к таблицам.

Обратим внимание, что типология изданий таблиц не стандартизована. Специалисты, занимающиеся индексированием, должны знать, что в зависимости от объема представленной лексики таблицы классификации могут быть полными, средними (примерно 40–60% объема) и сокращенными (примерно 10% объема). Виды таблиц классификации по назначению предполагают указание вида библиотек: для научных библиотек, для областных библиотек, для детских и школьных библиотек. В практике нашей страны публиковались также таблицы специального назначения – для краеведческих каталогов и картотек.
5.2.2. Основным элементом таблиц классификации является классификационное деление (запись класса), в состав которого входят классификационный индекс, словесная формулировка (описание класса), при необходимости – методические указания, включающие также справочно-ссылочный аппарат.
Определим новые для нас термины: перечисленные через запятую и выделенные шрифтом являются допустимыми синонимами и могут употребляться равнозначно. Классификационная запись, классификационное деление, запись класса – совокупность элементов, обозначающая в классификационной таблице класс классификационной системы и состоящая из кода класса, описания класса и методических указаний. Классификационный индекс, код класса – обозначение класса средствами нотации (индексации) классификационной системы. Словесная формулировка, описание класса, наименование классификационного деления – обозначение класса на естественном языке.
Термин справочно-ссылочный аппарат не требует определения – ясно, что речь идет о совокупности ссылок и справок. (Надо помнить, что ГОСТ7.76 (п. 5.5) регламентировал применение термина ссылка запись, связывающая между собой части документа, библиографические записи, классификационные деления, предметные рубрики. В примечании к этому определению сказано: различают ссылки «см.», которые организуют поиск в нужном направлении, и «см. также», которые обеспечивают полноту поиска. В связи с этим указанием стандарта теперь применение терминов «отсылка» и «полная ссылка» не рекомендуется: следует применять форму «ссылка см.», а вместо термина «частная ссылка» применяется «ссылка см. также».
5.2.3. Классификационный индекс состоит из одной или нескольких ЛЕ, которые следует выражать цифровыми, буквенными или смешанными (буквенно-цифровыми) обозначениями с использованием синтаксических знаков.
Выше мы уже употребили термин «индекс». Надо иметь в виду, что этот термин введен русскими библиотекарями еще в XIX в. (от французского Indice classificateur). От него в дальнейшем образовалась группа терминов (индексация, база индексации и др.), которые характерны только для русской терминологии. В мировой практике распространен в этом значении термин нотация (вместо индексация). Классификационный индекс в английском языке – classification number. Индексирование и индексация, таким образом, понятия совершенно различные, хотя у этих слов один корень (index – указатель (англ.)).
ГОСТ 7.74 допускает параллельное использование как основных терминов (индексация – нотация), так и всех производных (например, смешанная индексация – смешанная нотация). В библиотечной практике мы традиционно используем привычные для нас термины.
Нотация, индексация – множество символов и правила их применения, используемые для представления лексических единиц и их взаимоотношений; алфавит нотации, база индексации – множество символов, используемых в конкретной нотации (индексации). В индексации используются буквы, цифры и синтаксические знаки.
Основной элемент базы индексации – арабские цифры, десять традиционных математических знаков (0, 1, 2, … 8, 9). На самом деле эти цифры возникли в Индии в V–VI вв. и стали известны в Европе в X–XIII вв. по арабским сочинениям (откуда и получили свое название). В арабской письменности цифры обозначаются совершенно иными знаками. Недостатком арабских цифр является их узкая база – одним знаком можно обеспечить всего 10 классов, двумя – 99, тремя – 999 и т. д. Однако есть и большие достоинства: ясно видна последовательность классов, выразительно начертание индекса, он удобно произносится. Как правило, три знака в индексации отделяются точкой. Если они обозначены цифрами, то мы произносим их поразрядно (555 – пятьсот пятьдесят пять), что очень удобно.
Римские цифры (I=1, V=5, Х=10, L=50, С=100, D=500, М=1000) при–меняются в индексации крайне редко, так как занимают много места. Надо, кроме того, принимать во внимание правила сочетаний знаков: если большая цифра стоит перед меньшей, то они складываются, если же меньшая – перед большей, то меньшая вычитается из большей.
В качестве буквенных индексов используются, как правило, возможности алфавитного ряда латинского языка или национальных алфавитов (например, в России -русского, в Грузии – грузинского и т. д.). По сравнению с цифрами база индексации значительно расширена (например, латинский алфавит – 26 букв). Однако некоторые сочетания букв трудно или неудобно произносить. Одиннадцать букв в латинском и русском алфавитах совпадают по графике: А, В, С, Е, Н, К, М, О, Р, Т, X (ср. с рядом в последовательности русского алфавита: А, В, Е, К, М, Н, О, Р, С, Т, X). Когда не ясна последовательность, приходится запоминать, алфавит какого языка положен в основу индексации.
Синтаксические знаки – пунктуационные и математические символы, которые используются в системе обозначений (нотации, индексации) различных классификационных ИПЯ. Перечислим эти знаки:

Перечень не является исчерпывающим, при необходимости используются и другие знаки (звездочка, знак конгруэнтности и пр.). Надо иметь в виду, что в соответствии с правилами различных классификационных ИПЯ синтаксические знаки могут комбинироваться между собой, приобретая при этом совершенно новые значения.
5.2.4. В зависимости от количе-ства ЛЕ в классификационном индексе различают простой, сложный или составной классификационные индексы.
Определим понятия: простой индекс – классификационный индекс, содержащий один код класса без сочетания с кодами других классов; комбинированный индекс – классификационный индекс, образованный из сочетания кода класса основной таблицы классификации с кодами классов вспомогательных таблиц классификации; составной индекс – комбинированный индекс, включающий в себя один или более сложных индексов.
5.2.5. Один или несколько классификационных индексов, отражающих в совокупности содержание данного документа, составляют ПОД (полный индекс).
В систематическом каталоге полный индекс указывает все деления каталога, в которых отражается данный документ. Полный индекс указывается на основных каталожных карточках всех видов каталогов справа на 3-й снизу строке. Он выполняет связующие, системные функции: с помощью полного индекса поиск из алфавитного каталога перенаправляется в систематический. В этом случае алфавитный каталог становится как бы указателем, дополнительным входом в систематический каталог. Обратную системную функцию (переход при поиске от систематического к алфавитному каталогу) выполняет заголовок БЗ. Надо последовательно добиваться реализации найденных в карточном каталоге решений, удобных при поиске и известных читателям и библиографам, при организации электронных каталогов. Наши коллеги в США, например, выяснили, что большинство читателей хотели бы видеть на экране БЗ в той форме, которая традиционно закрепилась в карточных каталогах.
5.2.6. Система грамматических отношений классификационного ИПЯ включает: парадигматические отношения между классификационными делениями (классами), зафиксированные с помощью иерархической структуры таблиц классификации, а также с помощью ссылочно-справочного аппарата; синтагматические отношения между классификационными индексами в сложных и составных индексах, образованных в соответствии с классификационной формулой.
Напомним, что о парадигматических и синтагматических отношениях мы говорили на предыдущем занятии. Классификационная формула – унифицированный порядок расположения классификационных индексов, определяющий классификационное решение.
5.2.7. В зависимости от вида документа и поставленных задач следует применять одну или несколько универсальных систем классификации – классификационных ИПЯ, приведенных ниже.

  • Библиотечно-библиографическую классификацию (ББК),
  • Государственный рубрикатор научно-технической информации (ГРНТИ),
  • Универсальную десятичную (децимальную) классификацию (УДК),
  • Десятичную классификацию М. Дьюи(ДКД), Классификатор правовых актов (КПА),
  • Межгосударственный классификатор стандартов (МКС),
  • Международную патентную классификацию (МПК).

При необходимости допускается применять также и локальные (отраслевые, специальные) классификационные ИПЯ.
Заключительное положение о требованиях к классификационным ИПЯ рекомендует набор универсальных классификационных систем и рубрикаторов. При этом определяющими для выбора являются вид документа и поставленные задачи. Стандарт не исключает возможности использования каких-либо иных ИПЯ в том случае, если они носят локальный характер, являются отраслевыми или специальными. Такой системой является, например, номенклатура специальностей научных работников ВАК. На последующих занятиях мы поговорим о каждой из перечисленных систем, разберемся в их функциях, назовем последние издания.
В дальнейшем в наших занятиях мы будем применять стандартизованные аббревиатуры: АК (алфавитный каталог), СК (систематический каталог), ПК (предметный каталог), ПР (предметная рубрика), а также аббревиатуры, принятые стандартом для наименований классификационных систем.

Please enable JavaScript to view the

Информационно-поисковые языки: Искусственная знаковая система, предназначенная для описания (путем индексирования) основного смыслового содержания текстов документов или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.






Фонетический уровень Это алфавит языка. Список используемых элементарных символов (символы естественного языка): кириллица, латинский алфавит арабские и римские цифры знаки пунктуации спец. символы # & * и т.п.)


Лексический уровень Словарный запас – совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица – наименьшая осмысленная последовательность элементарных символов (знаков), задаваемая при конструировании отдельных слов языка. Лексические единицы образуют лексику языка. Систематизируют лексические единицы парадигматические отношения.


Парадигматические отношения (аналитические) Это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Учитывают сходство и различие в объеме и содержании лексических единиц (понятий).


Объем– множество предметов, отображаемых в данном понятии. Количество предметов, входящих в объем может быть: Фиксированным (конечным) Бесконечным Единичным Содержание – отраженная в сознании совокупность свойств, присущих каждому предмету, входящему в объем понятия.






Сильные парадигматические отношения: Эквивалентности (равнозначности) – отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Подчинения – отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Род Вид Соподчинения – отношения между видовыми понятиями, в равной степени подчиненными одному родовому.


Сильные парадигматические отношения: Перекрещивания – отношения между понятиями, содержание которых различно, но объемы часто совпадают. Противоположности – отношения между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Противоречия (контрадикторности) – отношения между соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Исключают друг друга.


Слабые парадигматические отношения: Выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные и т.д.). Целое – часть Система – элемент Причина – следствие (отношения детерминации) Процесс – оборудование Процесс – материал




Синтаксический уровень Синтагматические отношения (синтаксические, грамматические, текстуальные) – отношения устанавливающие правила образования и правила интерпретации ИПЯ. Правила образования устанавливают какие комбинации элементарных символов допускаются при построении слов и выражений. Правила интерпретации – как надлежит понимать эти слова и выражения.




Характеристики ИПЯ Семантическая сила – возможность передавать полно и точно содержание сообщений. Простота лексики и грамматики. При разработке ИПЯ учитываются: Специфика отрасли или предмета Особенности текстов, образующих поисковый массив Характер информационных запросов




Типы и виды ИПЯ В основу классификации положены три видообразующих признака, учитывающих структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относится: Способ задания лексических единиц. Способ координации (сочетания) лексических единиц. Способ учета парадигматических отношений.


По способу задания лексических единиц Контролируемые Неконтролируемые Контролируемые ИПЯ – лексика задается заранее с помощью словарей и таблиц. ББК – библиотечно-библиографическая классификация. УДК – унифицированная десятичная классификация. Неконтролируемые ИПЯ – лексика задается на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.


По способу координации лексических единиц Некоординируемые Координируемые Некоординируемые ИПЯ – языки, не допускающие координации лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ – языки, лексические единицы которых координируются либо в процессе индексирования, либо в процессе поиска. Предкоординируемые – устанавливают порядок записи лексических единиц в процессе индексирования по заранее оговоренным правилам и предусматривается их жесткая последовательность. Посткоординируемые – лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска. Языки иерархической структуры Представляют систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс – совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток: невозможность организации вне иерархических связей.


Языки иерархической структуры 1. Документы 1.1 Иконические 1.2 Идеографические 1.3 Текстовые Первичные Неопубликованные Опубликованные Вторичные

1. Иерархические классификации: виды классификаций, их сущность.

2. Аналитико-синтетические (фасетные) классификации: общая характеристика.

Одним из существенных признаков классификационных систем является способ их построения, структура. К настоящему времени сложились два основных типа КС: иерархические и аналитико-синтетические (фасетные).

1. Сущность иерархических КС состоит в делении каждого класса высшего порядка на последовательно подчиненные классы, при этом каждый отдельно взятый класс непосредственно подчинен только одному более широкому классу.

Иерархические КС разделяются на два подтипа: перечислительные и комбинационные.

Перечислительные классификации самые ранние они возникли в глубокой древности и использовались на протяжении нескольких тысячелетий. На первом этапе развития перечислительные системы имели последовательную, нумерационную систему обозначений одного (единственного) ряда делений: 1, 2, 3, …, то есть были еще не иерархическими. Затем классификации последовательно развивались от дихотомических (в которых каждый класс мог быть разделен только на два подкласса, например: художественная литература – отечественная, зарубежная), к многомерным (в которых каждый класс мог подразделяться более чем по одному признаку). Дихотомия (гр. dicha на две части + tome сечение). Одно и то же понятие могло быть отражено в нескольких классах в зависимости от аспекта его рассмотрения. Так возникла и навсегда закрепилась в классификациях иерархическая структура , появились ступенчатые логические обозначения, появились классы и их подразделения, например: А А1 А2 А3.

В основу построения перечислительных КС положен принцип перечисления: их составители стремились перечислить все темы, понятия, отраженные в документах фонда. Типовые понятия, т.е. повторяющиеся признаки содержания и формы документов не выделяли в особые таблицы, они повторялись во многих разделах и делали таблицы чрезмерно громоздкими. Кроме того, перечислительная классификация не может охватить все темы, по которым документы имеются или появятся в будущем. Поэтому в настоящее время они ограничены в использовании. Достоинствами перечислительных классификаций являются простота построения, легкость индексирования.

В России перечислительные КС использовались вплоть до начала 20 в. при организации фондов, СК, в библиографических пособиях. К перечислительным относились КС, разработанные А.И. Богдановым (1693 – 1766), П.Г. Демидовым (1738 – 1821), А.Н. Олениным (1763 – 1843), Ф.Ф. Рейсом (1778 – 1852), К.М. Бэром (1792 – 1876) и др. библиотековедами.

Единственная из крупнейших перечислительных мировых КС, используемая в настоящее время, - Классификация Библиотеки Конгресса США (КБК), предназначенная для организации величайших в мире фондов. В 1998 г. ей исполнилось 100 лет. Полный комплект таблиц КБК со всеми дополнительными выпусками составляет 158 томов. Никаких сокращенных или специализированных вариантов КБК, как и переводов не существует. Современная КБК имеет элементы комбинационной классификации.


На смену перечислительным КС пришли комбинационные.Комбинационные классификации характеризуются более развитой структурой. В них отразилось стремление упорядочить, максимально унифицировать, уменьшить в объеме структуру перечислительных КС. К середине 19 в. созрело и было реализовано решение о возможности выделения повторяющихся понятий в самостоятельный ряд, образующий вспомогательные таблицы. Среди первых «изобретателей» вспомогательных таблиц, в которых концентрировались повторяющиеся типовые деления, можно назвать А.Шлеймахера (1787 – 1858), Ч. Кеттера (1837 – 1903), М. Дьюи (1837 – 1903). Первоначально упорядоченные перечни повторяющихся понятий решили располагать в том отделе КС, где они использовались наиболее активно: перечень языков – в разделе языкознания, хронологических понятий – в истории, географических наименований – в географии. Прошло еще полвека и, наконец, многие понятия, общие для многих отраслей знания, вынесли за пределы основных таблиц – были созданы типовые деления общего применения (ТДОП).

Изобретателями подлинно комбинационной КС считаются создатели Международного библиографического института в Брюсселе Поль Отле (1868 – 1944) и Анри Лафонтен (1854 – 1943) – авторы УДК.

Отличительная черта комбинационных КС – наличие двух видов таблиц: основной и вспомогательных. Основная таблица классификации – часть классификационной таблицы, включающая классификационные деления по всем отраслям знания. Вспомогательная таблица классификации часть классификационной таблицы, выделенная из состава основной классификационной таблицы и включающая классификационные деления, которые используются для уточнения и детализации классов основной классификационной таблицы. В ББК вспомогательные таблицы называются таблицами типовых делений и делятся на две группы: общего применения (к ним относятся таблицы общих, территориальных, этнических, языковых типовых делений, типовых делений социальных систем и др.) и типовые деления специального применения, расположенные внутри текста основных таблиц. К ним относятся таблицы специальных типовых делений и планы расположения. В УДК и ДКД вспомогательные таблицы называют таблицами определителей. Они подразделяются на аналогические группы.

Большинство применяемых в настоящее время КС является комбинационными. По сравнению с перечислительными классификациями, комбинационные характеризуются меньшим объемом и одновременно большей возможностью отражения сложных многоаспектных и вновь возникающих понятий.

2. Аналитико-синтетические классификации. Итак, в иерархической системе существует строго упорядоченная последовательность понятий, предполагающая одно- и многоступенчатые зависимости, соподчиненные, подчиняющие и подчиненные понятия. Иерархия понятий покоится на принципе субординации, подчинении. Если отойти от этого основного принципа, рассматривая все понятия как принципиально равноценные, положение совершенно изменится. Возникнет классификация, в которой каждое понятие может в принципе быть координировано с любым другим. Классификация, основанная на таком координатном индексировании получила название аналитико-синтетической или фасетной. Структура данного типа КСнеразрывно связана с понятием «категория» (категория времени, пространства и т.д.). Метод распределения классификационных понятий в соответствии с классификационными признаками на отдельные категории – называется категориальный анализ. Для каждой предметной области на основе категориального анализа разрабатывается соответствующая система категорий. Совокупность всех терминов и понятий, которыми оперирует та или иная наука, образует таблицы категорий, многоаспектно отражающих содержание документов. Все понятия, входящие в отрасли знания и их подразделения, группируются по сходным признакам в особые таблицы – фасеты. Внутри фасетов понятия могут быть расположены в иерархическом порядке. Каждый фасет образуется благодаря делению по одному основанию. Как и в иерархических классификациях, каждое деление аналитико-синтетической классификации снабжено индексом.

К аналитико-синтетическим классификациям, разрабатываемым в 20в. на основе категориального анализа, относятся «Классификация двоеточием» (КД) Ш.Р. Ранганатана, «Библиографическая классификация Блисса. Второе издание» (БКБ2). Классификации обеспечивали многоаспектный поиск информации. В таких системах для каждой предметной области определяется соответствующая система категорий. При классифицировании литературы индексы сложных понятий образуются путем комбинирования индексов простых понятий.

Систематизатор выбирает из групп понятий те, которые соответствуют по тематике и содержанию анализируемого документа и соединяет их определенным образом (синтезирует). В основе составления сложного индекса лежит принцип индексирования, заложенный в КС Ранганатана с помощью знака «двоеточие».

Пример: классификация литературы по одному из разделов судостроения – типы и виды судов. В классификации выделено 5 фасетов. Фасеты обозначены прописными буквами, их подразделения - арабскими цифрами, понятия из разных фасетов соединяются двоеточием.

А Назначение Б Район плавания В Тип двигателя Д Материал корпуса

1.Транспортные 1.Морские 1.Пароходы 1.Металлические

2.Грузовые 2.Внутреннего пла- 2.Электроходы 2.Деревянные

3.Спортивные 3.Смешанного пла- 3.Теплоходы 3.Пластмассовые

Засистематизируем документ, посвященный спортивным речным деревянным судам: А3: Б2: Д2 .

Возможность комбинировать различные признаки из разных фасет позволяет использовать фасетные классификации при систематизации многоаспектной литературы.

Например, «Работа о температуре крови крупного рогатого скота в условиях альпийского высокогорья в середине лета» может представлять интерес для физиолога, который исследует состав крови у человека и животного в определенных условиях, биофизика, который изучает температурные условия в целом, зоолога (главный предмет изучения), ветеринара и животновода, изучающих климатическую сопротивляемость организма животных.

Аналитико-синтетическая классификация облегчает поиск документов с комплексными и дифференцированными темами, объединяя однородные компоненты в один общий индекс.

В настоящее время, многие иерархические классификации, такие как ББК, УДК в условиях применения их в качестве ИПЯ в автоматизированных информационно-поисковых системах приобретают качества фасетных классификаций.

Аспи

Сущность и значение индексирования документа как процесса аспи.

Сущность индексирования – в процессе индексирования осуществляется интеллектуальный анализ документов, в процессе которого из них извлекаются понятия и преобразуются в термины индексирования.

Индексирование - это процесс выражения содержания документа и (или) запроса на Информационно – Поисковом Языке с помощью терминов индексирования (классификационных индексов, предметных рубрик, ключевых слов, дескрипторов, кодов)

Индексирование – это процесс перевода содержания документа и запросов с естественного языка на ИПЯ в результате чего создается поисковый образ документа и поисковый образ запроса.

Поисковый образ документа – это выраженное в терминах ИПЯ основное смысловое содержание документа (а не вся инфа содержащаяся в документах) по которому производится идентификация документа.

Поисковой образ запроса – совокупность терминов индексирования, выражающих смысловое содержание запроса. Индексирование запроса происходит путем перевода его содержания на ИПЯ.

Индексирование реализуется в следующих процессах: систематизация, предметизация, координатное индексирование.

Систематизация – (буквы и цифры) вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами, в соответствии с правилами какого-либо классификационного ИПЯ. Это классификационный принцип индексирования. Он обеспечивает информационный поиск по иерархическому признаку.

Предметизация – (только буквы) вид индексирования, при котором содержание документа и (или) запроса выражено предметной рубрикой. В соответствии с правилами соответствующего ИПЯ. Основано на использовании в качестве терминов индексирования лексических единиц естественного языка. Обеспечивает информационный поиск по алфавитному признаку.

Координатное индексирование – (набор ключевых слов) вид индексирования при котором содержание документа и (или) запроса выражается множеством ключевых слов или дескрипторов.

Виды ИПЯ: классификационные, предметизационные, дескрипторные.

2 режима индексирования: предкоординатное (классификационное) и посткоординатное.

2 вида индексирования: автоматическое (комп программы без участия человека) автоматизированное (комп программы но с участием человека)

Свободное индексирование – библиограф придумывает термины индексирования либо берет их из содержания документа.

Фактографическое индексирование – используется заранее определенная фактографическая инфа.

Контролируемое индексирование – под контролем гос. крупных библиотек.

Этапы индексирования:



2. Выявление и отбор смысловых компонентов в содержании документа

3. Принятие решения о составе ПОД

4. Оформление отобранных смысловых компонентов

5. Редактирование терминов индексирования

ИПЯ виды структура требования.

Информационно – поисковой язык – это искусственный язык, представляющий совокупность средств, для описания формальной и содержательной структуры для поиска. ИПЯ состоят из лексических единиц: слова, устойчивые словосочетания, абривиатуры, символы, даты.

Все лексические единицы вступают в отношения:

1. Парадигматические

2. Синтагматические

Парадигматические отношения – показывают логическую связь между предметами и явлениями, носят внеязыковой характер и не зависят от конкретных ситуаций: синонимия, омонимия, антонимы.

Синтагматические отношения – показывают сочетаемость слов друг с другом. Показывает изменения смысла предложения от порядка слов. (желтое платье красивое, красивое желтое платье)

Требования к ИПЯ:

1. Полно и точно передавать содержание документа, отражаемого в данной ИПС.

2. Обеспечить однозначное толкование терминов индексирования.

3. Допускать многоаспектное индексирование.

4. Допускать внесение изменений.

5. Обеспечивать простоту и удобство индексирования.

6. Отражать современное состояние терминосистемы в данной области знания.