Русская Википедия. Викисловарь россия

БЕСПЛАТНО ответим на Ваши вопросы
По лишению прав, ДТП, страховом возмещении, выезде на встречную полосу и пр. Ежедневно с 9.00 до 21.00
Москва и МО +7 (499) 938-51-97
С-Петербург и ЛО +7 (812) 467-32-86
Бесплатный звонок по России 8-800-350-23-69 доб.418

Викисловарь - это... Что такое Викисловарь?

Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Сначала появился на английском языке 12 декабря 2002 года.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Лексикографическая концепция

Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах единицы, о её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.

В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.

При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.

Тезаурус

Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы.

Связь проектов Википедия и Викисловарь

Участникам Википедии рекомендуется добавлять в статьи шаблон «викисловарь» (например, {{викисловарь|Викисловарь}}) для связывания с соответствующей статьёй Викисловаря. Чтобы сделать обратную ссылку на странице Викисловаря, используется шаблон «википедия» (например, {{википедия|Википедия}}).

Применение таких шаблонов позволяет сгладить острые углы проблемы «энциклопедия или словарь» и делает доступ к информации удобнее, поскольку предоставляет ссылку на дополнительную лингвистическую информацию о термине в энциклопедии, и, наоборот, даёт ссылку на глубокое описание значения слова в словаре, в целом улучшая «связность» статей в проектах Фонда Викимедиа.

Если требуется указать ссылку на определение слова непосредственно в тексте статьи (шаблон «викисловарь» добавляет целый блок), используются межпроектные интервики-ссылки, которые задаются следующим образом: [[wikt:ru:слово|слово]] или более коротко [[:wikt:слово|]] и выглядят так: слово.

Русскоязычный раздел

Динамика развития русского Викисловаря

Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.

В 2006 году был назначен первый администратор, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.

К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 21 марта 2009 года количество статей выросло до 200 000. Число активных участников составило порядка 20.

В отличие от ситуации с традиционными словарями полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счетчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковую и межъязыковую омонимию. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей.

Сравнение с другими Викисловарями

Начиная с августа 2008 года, русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей[1]. В то же время, количество статей в русском Викисловаре не самое большое[2]. Это значит, что у всех проектов, в которых статей больше, чем в русском Викисловаре, статьи имеют в среднем меньший размер, в чём можно убедиться на сайте статистики[3]. Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).

См. также

Ссылки

  1. ↑ Статистика викисловарей: Размер базы данных
  2. ↑ Статистика викисловарей
  3. ↑ Статистика викисловарей: Байтов на статью

dic.academic.ru

Русский Викисловарь — Викиреальность

Русский Викисловарь — русскоязычный раздел Викисловаря — проекта, посвящённого словам и всему, что с ними связано.

Викисловарь создан Фондом Викимедиа 1 мая 2004 года. В настоящее время (январь 2013) насчитывает ~ 500 000 статей о словах и словосочетаниях более, чем на четырехстах пятидесяти языках мира.

[править] Характеристика

Проект содержит огромное количество залитых ботами недостабов, имеющих в себе минимальную информацию о слове и множество пустых полей или призывов дополнить статью.[3] Но в 2015 году было запрещено создавать статьи как минимум без значения.

Как поясняет Al Silonov в связи с попыткой удалить из русского Викисловаря статьи «википедик» и «википидор», «в словарь попадают, наряду с современными нормативными, политкорректными терминами, которые встречаются также в „официальных“ словарях (Ушакова, Ожегова, Шведовой и т. п.), еще и всевозможные устаревшие, диалектные, специальные, просторечные, а также <…> жаргонные, грубые, бранные и обсценные слова и выражения. Матерная лексика, уголовные жаргоны, оскорбительные ксенофобские этнонимы (названия национальностей) — все эти явления, увы, суть факты живого языка, и словарь обязан их зафиксировать».[4]

Представители викиоппозиции считают, что в русском разделе Викисловаря нет каких-либо википолитических игр, что выгодно отличает его от многих проектов Фонда; в отсутствие игр в политику в проекте ведётся спокойная плодотворная работа, хотя недоработанных статей довольно много.

Мета MediaWiki • Вики • Википроект (альтернативный) • Википедизм • Джимбо • Ларри Сэнгер
Википроекты EcuRed • MediaWiki.org • Антикопирайт • Викиверситет (ru) • Викигид (ru) • Викиданные • Викизнание • Викимапия • Викиновости (ru) • Википедия (be, be-x-old, ce, cv, de, en, fi, fr, ru, uk, ru-sib †, […], альтернативы) • Мета Фонда Викимедиа • Викисклад • Викиреальность • Викиславия † • Викисловарь (ru) • Викитека (ru) • Викисфера (Wikisphere †, Wikisfera.net †) • Викиучебник (ru) • Викифур • Викицитатник (ru) • Гомопедия • Древо • Кащепузия † • Летописи • Луркоморье • Народная Яндекс.Карта • Нитяника-лайт (old) † • Орлец • Родовид • Русский эксперт • Ситизендиум • Традиция • Циклопедия • ЭНЭ • Metapedia • OpenStreetMap • Uncyclopedia (русский раздел, Абсурдопедия на Викии) • Urbanculture • Wikiindex • Wikitravel (ru) • краткий обзор основных
Основные понятия Вандализм • Викивозня • Викижаргон • Викиклон • Викиотпуск • Викитроллинг • Викифорум • Викихостинг • Виллвор • Значимость • Инклюзионизм • Интенсивность участия • Когда-нибуддизм • КПД • Кукловодство • Метапедизм • Обратимость • Основы • Пофигизм • Правьте смело • Самопиар • Технические флаги • Удализм • Цикл википедиста • Цикл википроекта • Шкала викивласти • Фонд Викимедиа • Экзопедизм • […]
Классы википедистов Основатель/Диктатор • Стюарды • Чекюзеры • Бюрократы • Ревизоры • Администраторы • Зарегистрированные участники • Ботоводы • Анонимы • Заблокированные участники • Дети • […]
Легендарные википедисты Oal • Wulfson • Мопец Ципельман • Сергей Нестерович • Анатолий • Ярослав Блантер • EvgenyGenkin • Smartass • Zoi • Дмитрий Хомак
Контент Авторская статья • Перевод • Мультиавторская статья • Брокгаузификация • Эффект Воланда • Википиратство • Копивио • Популярные шаблоны • Юзербокс
Болезни Административный восторг • Альтернатит • Ботофобия • Викиголизм (патологический) • Викигниль • Виртуалофобия • Викисутяжничество • Воспаление считательной железы • Мания порядка • Откатизм • Юзербоксомания • […]
Понятия АИ • Бегство основателя • Бухло • Викитупость • Викитусовщики • Викицацка • Викичестность • Викибюрократия • Викивешалка • Викидемагогия • Викидомогательство • Викикликушество • Викимагазин • Викиморализаторство • Вики-мышцы • Викиорден • Википаразитизм • Википари • Википатриот • Вики-привоз • Викирегистрация • Викиспойлер • Викитравля • Викитрудоустройство • Викияз • Википроект как поезд • Вызовы • Говорильня • Квалификационное редактирование • Ликвидация плюрализма • Нулевая правка • Правочный минимализм • Проект Российской свободной энциклопедии • Принцип Магуса • Пораженец • Потеря интереса к участию • Принцип Ле-Шателье • Проклятие викидвижка • Свалка • Смакование • Уподобление себя быдлу • Фразы-пустышки • Энциклопедичность • Ядерный удар
Творчество Я - викиголик

www.wikireality.ru

Русская Википедия - это... Что такое Русская Википедия?

URL: Характер проекта: Тип сайта: Регистрация: Язык: Владелец: Начало работы: Число статей: Число страниц: Число правок: Зарегистрированных участников: Активных участников: Администраторов: Глубина:
Русская Википедия

ru.wikipedia.org

Благотворительный

Сетевая энциклопедия

Необязательная

Русский

Фонд Викимедиа

11 мая 2001 года

940 470

3 204 698

57 611 297

965 728

12 745

94

104,2

Ру́сская Википе́дия[1][2] — русскоязычный раздел энциклопедии Википедия, основанный 11 мая 2001 года. В начале 2010 года преодолела рубеж в полмиллиона статей, а в начале сентября 2012 года начата 900-тысячная статья.

Это один из десяти самых крупных языковых разделов Википедии — на 16 декабря 2012 года в нём насчитывается 940 470 статей различной тематики. По данному показателю русская Википедия занимает 7-е место среди всех языковых разделов (после английской, немецкой, французской, нидерландской, итальянской и испанской Википедий). Однако по посещаемости языковой раздел находится на пятом месте, уступая английскому, испанскому, японскому и немецкому разделам[3].

Русская Википедия — одна из самых известных русскоязычных универсальных энциклопедий наряду с Большой советской, словарём Брокгауза и Ефрона, энциклопедией Кирилла и Мефодия, Кругосветом и другими.

Традиционное, признанное большинством название языкового раздела — «русская Википедия», как и названия других языковых разделов Википедии — английская Википедия, французская Википедия и т. п., означает не принадлежность к этносу или государству, а язык написания статей.

Основные статистические показатели

Количественные

Основная статья: Википедия:Список Википедий

Русская Википедия — первый по числу статей языковой раздел Википедии на славянских языках (до 3 декабря 2012 г. — второй после польского, который возник и начал развиваться раньше) и крупнейший среди всех разделов Википедии, которые не используют латинский алфавит[4]. Помимо незарегистрированных (анонимных) редакторов, в русской Википедии зарегистрировано 965 728 участников, из них 12 745 за последние 30 дней проявляли активность (сделали хотя бы одну правку). По состоянию на июль 2012 года по числу активных участников русская Википедия занимает пятое место (после английской, немецкой, французской и испанской Википедий)[4].

По данным за сентябрь 2012 года по числу особо активных участников, сделавших 100 и более правок за месяц, русская Википедия занимает четвёртое место (на первом — английская, 3193 участников, на 2-м — немецкая, 1009, на 3-м — французская, 750, на 4-м — русская, 657 участников[5]).

Русская Википедия использует fair use и занимает третье место по количеству загруженных файлов в раздел, уступая только английской и немецкой Википедиям.

Качественные

Качество энциклопедии в целом измерить непросто. Одним из относительных показателей развитости отдельных языковых разделов, который было предложено использовать ещё в 2006 году, является так называемая «глубина». При расчёте «глубины» принимается во внимание соотношение между служебными страницами[6] и статьями в общем количестве страниц языкового раздела, а также среднее количество правок на каждую статью. Раздел Википедии на русском языке обладает наибольшей «глубиной» среди всех славянских разделов, имеющих более 100 тыс. статей, и находится по этому показателю на 9-м месте среди 40 крупнейших языковых разделов, имеющих более 100 тыс. статей[4].

По состоянию на 16 декабря 2012 года в русскоязычном разделе Википедии 588 избранных статей и 1520 хороших статей, 380 списков признаны избранными. В этих статьях подробно раскрыты описываемые темы; в процессе присвоения того или иного статуса эти статьи особо тщательно проверяют на соблюдение требований точности, нейтральности, полноты и стиля изложения. Однако даже в этих статьях могут встречаться какие-то недоработки, а их уровень от статьи к статье может серьёзно колебаться. Следует также отметить, что требования к этим статьям, их объёму и качеству в разных разделах могут существенно отличаться.

На 3 сентября 2012 года по объёму тысячи статей, которые должны быть в каждой Википедии русская Википедия занимает 3-е место среди других языковых разделов, поднявшись с 7-го менее чем за месяц в результате целенаправленной работы над объёмом статей данного списка[7].

Посещаемость и цитирование

Русская Википедия в первой десятке по посещаемости

По состоянию на середину июля 2012 года, русская Википедия находилась на пятом месте по посещаемости среди всех языковых разделов Википедии[3] — количество просмотров её страниц составляет более 1,3 миллиона в час[3]. Раздел на русском языке в 11 государствах (в России, Украине, Белоруссии, Казахстане, Молдавии, Армении, Узбекистане, Азербайджане, Киргизии, Таджикистане и Туркмении) занимает первое место среди языковых разделов Википедии по посещаемости[8].

На декабрь 2012 года тематический индекс цитирования русской Википедии в Яндекс.Каталоге равен 79 000, по этому показателю она находится на третьем месте среди всех сайтов Рунета[9] и пятом месте среди всех сайтов Интернета[10]. По статистике alexa.com, русская Википедия находится на пятом месте по посещаемости (после английской, испанской, немецкой, и японской Википедий) — её выбирают около 5,74 % всех посетителей Википедии[11].

Хронология развития

Основная статья: Википедия:История русскоязычного раздела

  • 2001 год
    • 11 мая — Анонсировано создание раздела Википедии на русском языке[12]. Анонс находился на домене russian.wikipedia.com
  • 2002 год
    • 7 ноября — раздел переехал с домена ru.wikipedia.com на ru.wikipedia.org, сменил вики-движок с UseModWiki на MediaWiki. Скрипт переноса текстов и историй правок со старого сервера на новый не был запущен, был только вручную перенесён текст главной страницы. Стала использоваться кодировка UTF-8. Фактически это «второе рождение» проекта — одна статья.
  • 2004 год
  • 2005 год
  • 2006 год
  • 2007 год
  • 2008 год
  • 2009 год
  • 2010 год
  • 2011 год
  • 2012 год

Состав

Аппаратное обеспечение. Русский раздел вместе с остальными разделами Википедии работает на серверном кластере, состоящем из 711 серверов. Подробнее см. meta:Hardware  (англ.)[14].

Программное обеспечение. Используется движок MediaWiki. Подробности об используемой версии MediaWiki и установленных расширениях можно посмотреть здесь.

Содержание. Массив статей (940 470), массив спецстраниц.

Тематика статей

Больше всего статей посвящены[15]:

  • Людям — 196 169, в том числе:
    • учёным — 18 671
    • футболистам — 15 462
    • музыкантам — 13 681
    • писателям — 11 733
    • Кавалерам ордена Ленина — 10 846
    • актёрам — 6811
    • художникам — 6365
    • Героям Советского Союза — 6411
    • актрисам — 6025
    • Кавалерам ордена Красной Звезды — 5573
    • Кавалерам ордена Трудового Красного Знамени — 4983
    • политикам — 4682
    • Кавалерам ордена Красного Знамени — 4642
    • Кавалерам ордена «Знак Почёта» — 3440
  • населённым пунктам — 157 430
  • рекам — 28 973
  • фильмам — 19 918
  • фамилиям — 19 878
  • животным — 18 378
  • музыкальным альбомам — 9955
  • компаниям — 7772
  • улицам — 7406
  • растениям — 7472
  • музыкальным коллективам — 6370
  • галактикам Нового общего каталога — 6228
  • компьютерным играм — 4433
  • футбольным клубам — 3756
  • флагам — 3470
  • музыкальным синглам — 3435

Участники

См. также: ВП:Права участников и Служебная:ListGroupRights

Все пользователи русской Википедии делятся на тех, кто по мере необходимости читает её статьи, и тех, кто хотя бы раз их редактировал. Всех редакторов Википедии иногда на жаргоне называют википедистами.

Редактировать статьи Википедии можно с постоянного аккаунта либо анонимно, без регистрации.

Анонимные правки в проекте автоматически подписываются IP-адресом, с которого они сделаны. Анонимные участники не могут загружать файлы и править частично защищённые страницы.

Категории участников

  • Участники русской Википедии зарегистрированы на ней, имеют свой постоянный аккаунт, под которым и правят её статьи. Они имеют своё имя пользователя, и при каждом новом заходе на Википедию авторизуются, вводя свои имя пользователя и пароль. После регистрации участники могут пользоваться списком наблюдения за интересующими статьями, получают личное пространство, состоящее из личной страницы, страницы обсуждения и возможно дополнительных страниц. Также зарегистрированный участник получает возможность в целях удобства настраивать персональное оформление.
  • Через 4 дня после регистрации они приобретают статус автоподтверждённых участников и уже могут править и частично защищённые страницы, а переименовывать любые (кроме полностью защищённых).
  • Через 14 дней после регистрации и наличии не менее 20 правок они приобретают статус загружающих и могут загружать файлы в статьи Википедии (для загрузки файлов на Викисклад этот статус не требуется).

Участники, имеющие стаж в Википедии от 3 месяцев и 100 осмысленных правок в ней, имеют право участвовать в выборах администраторов и бюрократов. Участники, имеющие стаж в Википедии от 3 месяцев и 500 действий в ней, имеют право принимать участие в выборах Арбитражного комитета.

Три вышеперечисленных статуса присваиваются любому участнику автоматически, просто по прошествии 4 и 14 дней от момента регистрации и при наличии в активе 20 правок. Нижеприведённые статусы присваиваются участнику только по его заявке на их получение. При весомых нарушениях они могут быть сняты.

  • Исключение из IP-блокировок — специальный флаг, позволяющий редактировать страницы Википедии с заблокированных IP-адресов. Обычно блокировки, наложенные на IP-адреса и диапазоны, затрагивают лишь анонимных участников, но иногда приходится одновременно с блокировкой анонимных участников запрещать редактирование и зарегистрированным. Администраторы (см. ниже) по умолчанию не попадают под такие блокировки, а другим участникам в таком случае придётся попросить об исключении из подобных блокировок на индивидуальной основе. Это исключение также может использоваться, чтобы дать возможность доверенным участникам править с анонимизирующей сети или прокси-сервера.
  • Автопатрулируемые — если такие участники вносят правки в отпатрулированные версии статей, то версия статьи после этой его правки тоже будет считаться отпатрулированной, но если же его правка будет сделана в непатрулированную версию статьи, то полученная версия тоже будет считаться непатрулированной. В настоящее время в русском разделе Википедии более 1310 участников с данными правами[16].
  • Патрулирующие могут устанавливать и снимать отметку «патрулированная версия» со страниц, иметь доступ к необходимым служебным страницам и быстро откатывать вандальные правки. Обычно вместе с флагом патрулирующего участник получает флаг откатывающего и с ним техническую возможность совершать «быстрый откат» — это отмена всех последних правок одного определённого участника на странице без загрузки страницы редактирования и необходимости описывать причину, а также флаг переименовывающего без перенаправлений, дающий техническую возможность не создавать перенаправление со старого названия при переименовании страницы. Флаг патрулирующего (editor) может быть присвоен всем сколько-нибудь активным зарегистрированным участникам, которые знают и понимают требования к патрулированным статьям и знакомы с правилами Википедии, из которых эти требования следуют. При наличии веских оснований флаг патрулирующего с участника может быть снят. В настоящее время в русском разделе Википедии более 1390 участников с данными правами[16].
  • Переименовывающие файлы могут изменять названия страниц файлов, что доступно обычно только администраторам. Флаг переименовывающего файлы (filemover) могут получить участники-неадминистраторы, активно работающие с файлами, при соответствии к определённым требованиям. В настоящее время в русском разделе Википедии более 40 участников с данными правами[17].
  • Подводящие итоги могут подводить итоги обсуждений на подстраницах «к удалению» в сравнительно простых случаях, не требующих привлечения к этому администраторов. Кроме того, подводящие итоги могут осуществлять быстрое удаление страниц, но, в отличие от администраторов, не по всем критериям. Этот статус тоже может быть снят. В настоящее время в русском разделе Википедии более 50 участников с данными правами[17].
  • Администраторы имеют дополнительные права — блокировка участников, удаление страниц (быстрое или по результатам обсуждения на соответствующей странице), наложение и снятие защиты со страниц, правка полностью защищённых страниц, присвоение и снятие с участников флагов патрулирующего, откатывающего, автопатрулируемого, подводящего итоги, исправление последствий ошибочных действий других администраторов. В настоящее время в русском разделе Википедии 94 участников с правами администратора[18]. В русской Википедии невысокое число администраторов среди крупных Википедий, но удельный вес их (0.1 ‰) превосходит некоторые разделы, например, португальский. Администраторы не имеют каких-либо привилегий в управлении проектом и не имеют права использовать свои возможности для навязывания другим участникам своей точки зрения. Статус администратора с участника может быть снят, если деятельность этого участника вступает в противоречие с целями и задачами проекта «Википедия», а также при его низкой административной активности.
  • Бюрократы могут переименовывать учётные записи участников, присваивать и снимать статус администратора и бота. В настоящее время все бюрократы являются одновременно и администраторами.
  • Ревизоры могут скрывать отдельные версии страниц из истории правок, а также просматривать уже сокрытые. Использование этих возможностей разрешено только в следующих четырёх случаях: удаление непубличной персональной информации, удаление потенциально порочащей информации, устранение нарушений авторского права, сокрытие явно недопустимых имён в автоматических списках и журналах, где это не нарушает истории правок.
  • Проверяющие участников имеют доступ к инструментам, позволяющим в случае необходимости получить доступ к дополнительным данным о пользователях для выявления обхода блокировок учётных записей и создания «сокпаппетов». Для выдачи данных прав участники обязаны сообщить свои реальные данные. Также они обязуются сохранять конфиденциальность, и в случае её нарушения данные права могут быть отозваны.
  • Арбитры являются временно избираемыми членами Арбитражного комитета (АК), который призван разрешать различные конфликты, связанные с работой в Википедии, которые оказалось невозможно разрешить иными методами. Арбитражный комитет вправе применять любые практически осуществимые меры и санкции, которые не противоречат правилам Википедии. Также существуют резервные арбитры, которые должны замещать действующих арбитров в Арбитражном комитете, если арбитр по каким-то причинам не может участвовать в обсуждении иска.
  • Клерки избираются Арбитражным комитетом, в их функции входит помощь арбитражному комитету в поддержании служебных страниц, связанных с работой АК, в актуальном состоянии, а также консультация участников по вопросам, связанным с заявками на арбитраж.

Географическое распределение участников

См. также: Википедия:Атлас википедистов

По состоянию на май 2012 года участники русской Википедии (по указанной ими информации) представляют 55 государств.

Из тех участников, которые указали своё местонахождение, большинство участников из России. Только в двух крупнейших городах страны их количество составляет несколько сотен в каждом: более 1300 участников указывают себя как участники из Москвы (кроме того, из Московской области — более 200 человек), более 710 — как участники из Санкт-Петербурга. Примерно по 110—120 человек указывают себя как участники из Екатеринбурга и участники из Новосибирска.

Свыше 690 википедистов указывают в качестве места своего проживания Украину. В каждой из таких стран, как Белоруссия, Германия, Израиль и Казахстан находится порядка 110—160 участников русской Википедии; в каждой из таких стран, как Азербайджан, Латвия и США — около 60—70 участников[19].

По общей статистике на октябрь 2012 года 70,9 % правок приходится на жителей России, 11,8 % на граждан Украины, 3 % на граждан США и 2 % на граждан Белоруссии. Также весомое количество правок приходится на жителей Германии, Израиля и Латвии.[20]

Викивстречи

Некоторые участники Википедии встречаются в реальной жизни на так называемых викивстречах. Первая такая встреча участников русской Википедии прошла 1 мая 2005 года в Санкт-Петербурге.

С 2007 года ежегодно в разных городах проводятся Вики-конференции, на которых собираются участники из разных городов России. Вики-конференции 2007 и 2009 прошли в Санкт-Петербурге, Вики-конференции 2008 и 2012 состоялись в Москве, Вики-конференция 2010 прошла в Ростове-на-Дону, в августе 2011 года состоялась Вики-конференция в Воронеже.

Проблемы

Информация в этой статье или некоторых её разделах устарела. Вы можете помочь проекту, обновив её и убрав после этого данный шаблон.

Войны правок

Как и в других языковых разделах Википедии, в русском разделе время от времени возникают затяжные конфликты между сторонниками различных точек зрения по тому или иному вопросу, что приводит к «войнам правок» — частому изменению статьи или круга статей в направлении преимущества определённого взгляда на их содержание.

Газета «Ведомости» в 2006 году писала по этому поводу:

Из-за того, что редактировать статьи в «Википедии» может каждый, даже анонимный пользователь, по поводу содержания часто возникают ожесточенные дискуссии. Например, сейчас в форуме под статьей «Украинский язык» разгорелся спор: некоторые участники требуют удалить эту статью, потому что она «выражает претензии так называемых украинских ученых на исконно русское наследие: в частности, русский язык и его элементы называются тут украинскими». При этом и противники, и защитники украинского языка признаются, что не имеют лингвистического образования.[21]

В то же время, по мнению администратора русского раздела, кандидата психологических наук Станислава Козловского, эта проблема не так страшна и в конечном итоге решаема:

Среди авторов, конечно же, могут оказаться люди радикальных взглядов. Однако участников в Википедии довольно много и, как правило, одни радикалы всегда уравновешивают других, с противоположной точкой зрения. Одно из основных требований к статье заключается в том, что она должна быть написана с нейтральной точки зрения. Соответственно, приверженцы противоположных мнений обычно спорят друг с другом на странице обсуждения, перепроверяют ссылки-аргументы друг друга и в конце концов приходят к консенсусу[22].

Критика

Русскоязычную Википедию обвиняют в наличии цензуры и предвзятости[23]. Так, была удалена статья «Критика Путина». В качестве упрека также приводят слабую сменяемость и ротацию корпуса администраторов. По словам одного из пользователей, «управляют Википедией по факту единицы, причем не демократически. Хотя эти единицы очень любят рассуждать о свободной Википедии и о том, что Википедию может править каждый»[23]. Критика (действующей власти) систематически исключается, удаляется или откатывается администраторами или участниками с соответствующими правами[24].

Википедия также используется для самопиара и рекламы, несмотря на то, что это запрещено правилами[25].

Награды

Внутренние награды

В русской Википедии существует система наград для статей, выделяющихся высоким качеством и информативностью. Существует специальный портал: Википедия:Награды, посвящённый этому вопросу.

По состоянию на 12 апреля 2009 года в русской Википедии есть три вида наград:

  • Избранные статьи — лучшие статьи, которые есть в Википедии, выбираются участниками на странице обсуждения кандидатов и презентуются раз в три дня на заглавной странице.
  • Хорошие статьи — статьи, приближающиеся к избранным по качеству, но ещё не удовлетворяющие всем критериям избранных, выбираются участниками на странице обсуждения кандидатов и по мере избрания презентуются на заглавной странице.
  • Избранные списки и порталы — страницы, которые не являются статьями, но несут в себе много информации, выбираются участниками на странице обсуждения кандидатов и презентуются по мере издания на заглавной странице.

Участники соответствующих проектов считают, что эти награды являются стимулом для написания как можно более качественных статей. Для особо активных и внёсших большой вклад википедистов предусмотрена система орденов.

Награды и премии проекта

«Премия Рунета»
Награда «Звезда Интернета»

«Премия Рунета» — российская общенациональная награда в области высоких технологий и Интернета, которой поощряются выдающиеся заслуги компаний-лидеров в области информационных технологий и электронных коммуникаций, государственных и общественных организаций, бизнес-структур, а также отдельных деятелей, внесших значительный вклад в развитие российского сегмента сети Интернет (Рунета)[26].

  • «Премия Рунета — 2012» (21 ноября 2012). Русская Википедия — лауреат премии в номинации «Наука и образование»[27].
  • «Премия Рунета — 2011» (25 ноября 2011). Русская Википедия — дипломант «Народной десятки» (6 место)[28].
  • «Премия Рунета — 2010» (25 ноября 2010). Русская Википедия — лауреат премии в номинации «Наука и образование»[13], а также дипломант «Народной десятки» (7 место).
  • «Премия Рунета — 2009» (25 ноября 2009). Русская Википедия — лауреат премии в номинации «Наука и образование»[29].
  • «Премия Рунета — 2008» (25 ноября 2008). Русская Википедия — дипломант «Народной десятки» (9 место)[30].
  • «Премия Рунета — 2007» (27 ноября 2007). Русская Википедия — лауреат премии в номинации «Наука и образование», а также дипломант «Народной десятки» (8 место)[31].
  • «Премия Рунета — 2006» (29 ноября 2006). Русская Википедия — лауреат премии в номинации «Наука и образование»[32].
  • «Премия Рунета — 2005» (25 ноября 2005). Русская Википедия — дипломант «Народной десятки» (6 место)[33].
РОТОР и РОТОР++

Сетевой конкурс РОТОР, особенность которого заключается в том, что номинировать и голосовать за проекты могут только видные деятели Рунета, являющиеся членами союза ЕЖЕ:

  • РОТОР-2011 (ноябрь 2011) — в номинации «Научно-популярный сайт года» (I-ое место)[34].
  • РОТОР-2010 (сентябрь 2010 года) — Русская Википедия выиграла номинацию «Интернет-сообщество года»[35].
  • РОТОР-2009 (май 2009 года) — Русская Википедия выиграла номинацию «Научно-образовательный сайт года», а редакторы русской Википедии заняли II место в номинации «Редактор года». Также в конкурсе были номинированы Викитека и Викисклад[36].
  • РОТОР-2008 (май 2008 года) — Русская Википедия выиграла номинацию «Интернет-сообщество года» и в четвёртый раз заняла II место в номинации «Научно-образовательный сайт года», опять уступив проекту «Элементы.ру»[37].
  • РОТОР-2007 (март 2007 года) — Русская Википедия заняла два почётных вторых места, в номинациях «Интернет-сообщество года», уступив проекту Хабрахабр, и «Научно-образовательный сайт года», уступив проекту «Вокруг света». Всего проголосовало чуть более 220 человек[38].
  • РОТОР-2006 (2006 год) — Русская Википедия заняла второе место в номинации «Научно-образовательный сайт года», уступив проекту «Математические этюды». В голосовании принял участие 141 человек[39].
  • РОТОР++ (2005 год) — У Википедии второе место в номинации «Научно-образовательный сайт года», первое — у проекта «Элементы.ру»[40].
«Золотой сайт»

«Золотой сайт» — всероссийский открытый интернет-конкурс, основанный в 1998 году при участии IT-корпораций IBS, APC, Intel и Microsoft.

  • «Золотой сайт — 2007» (6 декабря 2007 года). Русская Википедия стала лауреатом в номинации «Классика»[41].
Прочие премии
  • «Звезда Интернета — 2011» (30 сентября 2011). Русская Википедия стала лауреатом в номинации «Кто знает ответы на все вопросы».

Интересные факты

  • Первым участником русской Википедии, сделавшим 100 000 правок в статьях, стал пользователь User№ 101.
  • Первым участником, создавшим 10 000 статей, стал пользователь Tretyak.
  • За время существования русского проекта в нём имеются умершие участники.
  • Русский участник Samal стал третьим википедистом в мире, получившим орден от исполнительного директора фонда «Викимедиа» — Сью Гарднер (Sue Gardner) — «За создание Инкубатора» (Инкубатор).

См. также

Примечания

  1. ↑ Консенсуса об официальном названии проекта нет, употребляются различные варианты именования. См. Википедия:Опросы/Название русского раздела. Встречаются варианты: русская «Википедия», «Русская Википедия», Википедия на русском языке, русскоязычный раздел Википедии, РуВика, РуВики, ru-wiki.
  2. ↑ Вокруг названия или слова Википедия могут присутствовать или отсутствовать кавычки. С одной стороны, названия печатных изданий, в том числе энциклопедий, принято давать в кавычках, с другой — имена общественных движений, учреждений культуры указываются без кавычек (А. Э. Мильчин, Л. К. Чельцова «Справочник издателя и автора», глава Названия (употребление прописных букв, кавычек; слитное, дефисное, раздельное написание)).
  3. ↑ 1 2 3 Page Views for Wikipedia, All Platforms, Normalized (Таблицы статистики Википедии)  (англ.). Архивировано из первоисточника 30 мая 2012. Проверено 2011-15-03.
  4. ↑ 1 2 3 Список Википедий
  5. ↑ Wikipedia Statistics, Very active wikipedians
  6. ↑ К служебным относятся страницы Википедии, используемые участниками проекта в совместной работе, — личные страницы участников, страницы обсуждения статей, страницы-перенаправления и пр.
  7. ↑ Список Википедий по уровню проработанности основных статей
  8. ↑ Wikimedia Traffic Analysis Report - Wikipedia Page Views Per Country - Breakdown. Архивировано из первоисточника 23 августа 2011. Проверено 11 января 2011.
  9. ↑ Яндекс. Каталог
  10. ↑ Яндекс. Каталог
  11. ↑ Данные alexa.com
  12. ↑ Письмо Jason Richey в почтовую рассылку wikipedia-l 11 мая 2001
  13. ↑ 1 2 Номинанты и Лауреаты 2010 года. Премии Рунета. Архивировано из первоисточника 23 августа 2011. Проверено 25 ноября 2010.
  14. ↑ Wikimedia Grid Report  (англ.). Архивировано из первоисточника 23 июня 2012. Проверено 31 мая 2012.
  15. ↑ Служебная:MostLinkedCategories. Приведены категории, статей в которых больше 3 000.
  16. ↑ 1 2 Служебная:ValidationStatistics
  17. ↑ 1 2 Служебная:Статистика
  18. ↑ Список администраторов
  19. ↑ Категория:Википедия:Участники по странам
  20. ↑ Wikimedia Traffic Analysis Report
  21. ↑ Юлия Идлис. Вики-вики — значит «быстро» // «Ведомости», № 212 (1739), 10.11.2006.
  22. ↑ «Стереть чужой вандализм может любой»: Интервью с администратором русской Википедии Станиславом Козловским // РБК daily — Weekend, 18.01.2008.
  23. ↑ 1 2 Радио ЭХО Москвы :: Точка, 13.09.2009 22:12 Википедия: Илья Щуров, Сергей Рублев, Виктор Захарченко
  24. ↑ Радио ЭХО Москвы :: Точка, 13.07.2008 22:06 Народ против народной энциклопедии: Стас Козловский
  25. ↑ Радио ЭХО Москвы :: 'Точка' 13.07 / Комментарии
  26. ↑ Официальный сайт Премии Рунета
  27. ↑ Состоялась X Торжественная Церемония вручения «Премии Рунета 2012». premiaruneta.ru (21 ноября 2012). Архивировано из первоисточника 24 ноября 2012. Проверено 22 ноября 2012.
  28. ↑ Результаты народного голосования Премии Рунета-2011
  29. ↑ Номинанты Премии Рунета — 2009. Интернет-проекты
  30. ↑ Народное голосование 2008
  31. ↑ Объявлены лауреаты «Премии Рунета — 2007»
  32. ↑ Объявлены лауреаты «Премии Рунета — 2006»
  33. ↑ Победители «Народного голосования» ПР-2005
  34. ↑ POTOP-2011
  35. ↑ РОТОР-2010: 10. Интернет-сообщество года
  36. ↑ РОТОР-2009
  37. ↑ РОТОР-2008
  38. ↑ РОТОР 2007
  39. ↑ РОТОР 2006. Номинация «Научно-образовательный сайт года»
  40. ↑ РОТОР++ 2005. Номинация «Научно-образовательный сайт года»
  41. ↑ Итоги конкурса «Золотой сайт 2007»

Ссылки

Основная статья: Википедия:Пресса о Википедии

dik.academic.ru

Викисловарь — Википедия

Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Сначала появился на английском языке 12 декабря 2002 года.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Данные викисловарей активно используются при решении различных задач, связанных с машинной обработкой текста и речи[⇨].

Лексикографическая концепция

Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.

В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.

При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.

Для пополнения Викисловаря создан обширный список литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см. Criteria for inclusion). В отличие от русской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам[Прим 1], в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления[Прим 2].

Тезаурус

Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы.

Видео по теме

Википедия и Викисловарь

Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления, протологизмы, ономатопею, разные стили (напр., разговорный) и предметные области[2]. Таким образом, Википедия и Викисловарь дополняют друг друга.

Викисловарь сходен с Википедией в том, что (1) есть внутренние ссылки на статьи о словах внутри Викисловаря, (2) есть категории, (3) есть интервики, ссылающиеся на статьи о том же слове в иноязычном словаре[2].

Связывание проектов

Участникам Википедии рекомендуется добавлять в статьи шаблон «викисловарь» (например, {{викисловарь|Викисловарь}}) для связывания с соответствующей статьёй Викисловаря. Чтобы сделать обратную ссылку на странице Викисловаря, используется шаблон «википедия» (например, {{википедия|Википедия}}).

Применение таких шаблонов позволяет сгладить острые углы проблемы «энциклопедия или словарь» и делает доступ к информации удобнее, поскольку предоставляет ссылку на дополнительную лингвистическую информацию о термине в энциклопедии, и, наоборот, даёт ссылку на глубокое описание значения слова в словаре, в целом улучшая «связность» статей в проектах Фонда Викимедиа.

Если требуется указать ссылку на определение слова непосредственно в тексте статьи (шаблон «викисловарь» добавляет целый блок), используются межпроектные интервики-ссылки, которые задаются следующим образом: [[wikt:ru:слово|слово]] или более коротко [[:wikt:слово|]] и выглядят так: слово.

Русскоязычный раздел

Динамика развития русского Викисловаря

Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.

В 2006 году был назначен первый администратор, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.

К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 21 марта 2009 года количество статей выросло до 200 000. Число активных участников составило порядка 20.

В отличие от ситуации с традиционными словарями полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковую и межъязыковую омонимию. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей.

Сравнение с другими Викисловарями

Число русских слов в Русском Викисловаре (слева) и в Английском Викисловаре (справа)[3], данные на 2011 год

Начиная с августа 2008 года русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей[4]. В то же время, количество статей в русском Викисловаре не самое большое[5]. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики[6]. Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).

Авторами [3] было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3.4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53.6 тысячи против 15.7 тысяч.

Применение викисловарей в задачах автоматической обработки текста и речи

Для использования лексикографических данных викисловарей при решении задач автоматической обработки текста и речи — необходимо преобразовать тексты словарных статей (слабоструктурированные данные[7]) в машиночитаемый формат[8][9][10].

Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности[11]: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей[Прим 3], (3) технология вики изначально ориентирована на удобство работы человека, а не на машинную обработку.

Существует несколько парсеров для разных викисловарей[12]:

  • DBpedia Wiktionary — одно из расширений проекта DBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи[13], регулярные выражения[14] и FST-разновидность конечного автомата[15].
  • JWKTL (Java Wiktionary Library) — API к данным Английского и Немецкого Викисловарей[16]. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
  • wikokit — парсер Английского и Русского Викисловарей[17]. Извлекаются: язык, часть речи, толкование, цитаты[18] (только для Русского Викисловаря), семантические отношения[19] и переводы. Исходный код программы доступен на условиях открытой мульти-лицензии.

С помощью викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи[20]:

  • машинный перевод на основе правил между нидерландским и языком африкаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы Apertium[21];
  • создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, WordNet и VerbNet[22]. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика Screen scraping;
  • распознавание и синтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений[23]. Извлекаются пары слово-произношение (транскрипция в системе МФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей[Прим 4]. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря[24];
  • построение онтологий[25] и баз знаний[26];
  • отображение онтологий[27];
  • упрощение текста. В работе [28] выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы[28] предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
  • частеречная разметка. В работе (Ли и др., 2012)[29] на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием скрытых марковских моделей.[Прим 5]
  • анализ тональности текста[30].

См. также

Комментарии

Примечания

  1. ↑ Глобальный рейтинг сайта Викисловарь (англ.). Alexa Internet. Проверено 9 сентября 2017.
  2. ↑ 1 2 Zesch et al, 2008, p. 2.
  3. ↑ 1 2 Смирнов и др., 2012.
  4. ↑ Статистика викисловарей: Размер базы данных
  5. ↑ Статистика викисловарей
  6. ↑ Статистика викисловарей: Байтов на статью
  7. ↑ Meyer and Gurevych, 2012, p. 140.
  8. ↑ Zesch et al, 2008, Figure 1, p. 4.
  9. ↑ Meyer and Gurevych, 2010, p. 40.
  10. ↑ Крижановский, Преобразование, 2010, с. 1.
  11. ↑ Hellmann and Auer, 2013, стр. 16 в PDF, p. 302.
  12. ↑ Hellmann et al, 2012, Table 1, p. 3.
  13. ↑ Hellmann et al, 2012, pp. 8—9.
  14. ↑ Hellmann et al, 2012, p. 10.
  15. ↑ Hellmann et al, 2012, p. 11.
  16. ↑ Zesch et al, 2008.
  17. ↑ Крижановский, Преобразование, 2010.
  18. ↑ Крижановский, 2011.
  19. ↑ Крижановский, Сравнение, 2010.
  20. ↑ Смирнов и др., 2012, pp. 233—234.
  21. ↑ Otte and Tyers, 2011.
  22. ↑ McFate and Forbus, 2011.
  23. ↑ Schlippe et al., 2012.
  24. ↑ Schlippe et al., 2012, p. 4804.
  25. ↑ Meyer and Gurevych, 2012.
  26. ↑ ConceptNet 5. Проверено 17 апреля 2013. Архивировано 19 апреля 2013 года.
  27. ↑ Lin and Krizhanovsky, 2011.
  28. ↑ 1 2 Medero and Ostendorf, 2009.
  29. ↑ Li et al, 2012.
  30. ↑ Chesley et al, 2006.

Литература

  • Li S., Graça J. V., Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389—1398. Архивировано 22 мая 2013 года.
  • McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. — ISBN 978-1-932432-88-6.

www.wikipedia.green

Викисловарь Википедия

Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Сначала появился на английском языке 12 декабря 2002 года.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Данные викисловарей активно используются при решении различных задач, связанных с машинной обработкой текста и речи[⇨].

Лексикографическая концепция

Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.

В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.

При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.

Для пополнения Викисловаря создан обширный список литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см. Criteria for inclusion). В отличие от русской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам[Прим 1], в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления[Прим 2].

Тезаурус

Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы.

Википедия и Викисловарь

Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления, протологизмы, ономатопею, разные стили (напр., разговорный) и предметные области[2]. Таким образом, Википедия и Викисловарь дополняют друг друга.

Викисловарь сходен с Википедией в том, что (1) есть внутренние ссылки на статьи о словах внутри Викисловаря, (2) есть категории, (3) есть интервики, ссылающиеся на статьи о том же слове в иноязычном словаре[2].

Связывание проектов

Участникам Википедии рекомендуется добавлять в статьи шаблон «викисловарь» (например, {{викисловарь|Викисловарь}}) для связывания с соответствующей статьёй Викисловаря. Чтобы сделать обратную ссылку на странице Викисловаря, используется шаблон «википедия» (например, {{википедия|Википедия}}).

Применение таких шаблонов позволяет сгладить острые углы проблемы «энциклопедия или словарь» и делает доступ к информации удобнее, поскольку предоставляет ссылку на дополнительную лингвистическую информацию о термине в энциклопедии, и, наоборот, даёт ссылку на глубокое описание значения слова в словаре, в целом улучшая «связность» статей в проектах Фонда Викимедиа.

Если требуется указать ссылку на определение слова непосредственно в тексте статьи (шаблон «викисловарь» добавляет целый блок), используются межпроектные интервики-ссылки, которые задаются следующим образом: [[wikt:ru:слово|слово]] или более коротко [[:wikt:слово|]] и выглядят так: слово.

Русскоязычный раздел

Динамика развития русского Викисловаря

Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.

В 2006 году был назначен первый администратор, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.

К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 21 марта 2009 года количество статей выросло до 200 000. Число активных участников составило порядка 20.

В отличие от ситуации с традиционными словарями полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковую и межъязыковую омонимию. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей.

Сравнение с другими Викисловарями

Число русских слов в Русском Викисловаре (слева) и в Английском Викисловаре (справа)[3], данные на 2011 год

Начиная с августа 2008 года русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей[4]. В то же время, количество статей в русском Викисловаре не самое большое[5]. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики[6]. Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).

Авторами [3] было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3.4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53.6 тысячи против 15.7 тысяч.

Применение викисловарей в задачах автоматической обработки текста и речи

Для использования лексикографических данных викисловарей при решении задач автоматической обработки текста и речи — необходимо преобразовать тексты словарных статей (слабоструктурированные данные[7]) в машиночитаемый формат[8][9][10].

Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности[11]: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей[Прим 3], (3) технология вики изначально ориентирована на удобство работы человека, а не на машинную обработку.

Существует несколько парсеров для разных викисловарей[12]:

  • DBpedia Wiktionary — одно из расширений проекта DBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи[13], регулярные выражения[14] и FST-разновидность конечного автомата[15].
  • JWKTL (Java Wiktionary Library) — API к данным Английского и Немецкого Викисловарей[16]. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
  • wikokit — парсер Английского и Русского Викисловарей[17]. Извлекаются: язык, часть речи, толкование, цитаты[18] (только для Русского Викисловаря), семантические отношения[19] и переводы. Исходный код программы доступен на условиях открытой мульти-лицензии.

С помощью викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи[20]:

  • машинный перевод на основе правил между нидерландским и языком африкаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы Apertium[21];
  • создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, WordNet и VerbNet[22]. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика Screen scraping;
  • распознавание и синтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений[23]. Извлекаются пары слово-произношение (транскрипция в системе МФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей[Прим 4]. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря[24];
  • построение онтологий[25] и баз знаний[26];
  • отображение онтологий[27];
  • упрощение текста. В работе [28] выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы[28] предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
  • частеречная разметка. В работе (Ли и др., 2012)[29] на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием скрытых марковских моделей.[Прим 5]
  • анализ тональности текста[30].

См. также

Комментарии

Примечания

  1. ↑ Глобальный рейтинг сайта Викисловарь (англ.). Alexa Internet. Проверено 9 сентября 2017.
  2. ↑ 1 2 Zesch et al, 2008, p. 2.
  3. ↑ 1 2 Смирнов и др., 2012.
  4. ↑ Статистика викисловарей: Размер базы данных
  5. ↑ Статистика викисловарей
  6. ↑ Статистика викисловарей: Байтов на статью
  7. ↑ Meyer and Gurevych, 2012, p. 140.
  8. ↑ Zesch et al, 2008, Figure 1, p. 4.
  9. ↑ Meyer and Gurevych, 2010, p. 40.
  10. ↑ Крижановский, Преобразование, 2010, с. 1.
  11. ↑ Hellmann and Auer, 2013, стр. 16 в PDF, p. 302.
  12. ↑ Hellmann et al, 2012, Table 1, p. 3.
  13. ↑ Hellmann et al, 2012, pp. 8—9.
  14. ↑ Hellmann et al, 2012, p. 10.
  15. ↑ Hellmann et al, 2012, p. 11.
  16. ↑ Zesch et al, 2008.
  17. ↑ Крижановский, Преобразование, 2010.
  18. ↑ Крижановский, 2011.
  19. ↑ Крижановский, Сравнение, 2010.
  20. ↑ Смирнов и др., 2012, pp. 233—234.
  21. ↑ Otte and Tyers, 2011.
  22. ↑ McFate and Forbus, 2011.
  23. ↑ Schlippe et al., 2012.
  24. ↑ Schlippe et al., 2012, p. 4804.
  25. ↑ Meyer and Gurevych, 2012.
  26. ↑ ConceptNet 5. Проверено 17 апреля 2013. Архивировано 19 апреля 2013 года.
  27. ↑ Lin and Krizhanovsky, 2011.
  28. ↑ 1 2 Medero and Ostendorf, 2009.
  29. ↑ Li et al, 2012.
  30. ↑ Chesley et al, 2006.

Литература

  • Li S., Graça J. V., Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389—1398. Архивировано 22 мая 2013 года.
  • McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. — ISBN 978-1-932432-88-6.

wikiredia.ru

Викисловарь — Википедия

Викислова́рь (англ. Wiktionary) — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Сначала появился на английском языке 12 декабря 2002 года.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь — попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Данные викисловарей активно используются при решении различных задач, связанных с машинной обработкой текста и речи[⇨].

Лексикографическая концепция

Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.

В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.

При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.

Для пополнения Викисловаря создан обширный список литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см. Criteria for inclusion). В отличие от русской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам[Прим 1], в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления[Прим 2].

Тезаурус

Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы.

Видео по теме

Википедия и Викисловарь

Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления, протологизмы, ономатопею, разные стили (напр., разговорный) и предметные области[2]. Таким образом, Википедия и Викисловарь дополняют друг друга.

Викисловарь сходен с Википедией в том, что (1) есть внутренние ссылки на статьи о словах внутри Викисловаря, (2) есть категории, (3) есть интервики, ссылающиеся на статьи о том же слове в иноязычном словаре[2].

Связывание проектов

Участникам Википедии рекомендуется добавлять в статьи шаблон «викисловарь» (например, {{викисловарь|Викисловарь}}) для связывания с соответствующей статьёй Викисловаря. Чтобы сделать обратную ссылку на странице Викисловаря, используется шаблон «википедия» (например, {{википедия|Википедия}}).

Применение таких шаблонов позволяет сгладить острые углы проблемы «энциклопедия или словарь» и делает доступ к информации удобнее, поскольку предоставляет ссылку на дополнительную лингвистическую информацию о термине в энциклопедии, и, наоборот, даёт ссылку на глубокое описание значения слова в словаре, в целом улучшая «связность» статей в проектах Фонда Викимедиа.

Если требуется указать ссылку на определение слова непосредственно в тексте статьи (шаблон «викисловарь» добавляет целый блок), используются межпроектные интервики-ссылки, которые задаются следующим образом: [[wikt:ru:слово|слово]] или более коротко [[:wikt:слово|]] и выглядят так: слово.

Русскоязычный раздел

Динамика развития русского Викисловаря

Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.

В 2006 году был назначен первый администратор, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.

К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 21 марта 2009 года количество статей выросло до 200 000. Число активных участников составило порядка 20.

В отличие от ситуации с традиционными словарями полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковую и межъязыковую омонимию. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей.

Сравнение с другими Викисловарями

Число русских слов в Русском Викисловаре (слева) и в Английском Викисловаре (справа)[3], данные на 2011 год

Начиная с августа 2008 года русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей[4]. В то же время, количество статей в русском Викисловаре не самое большое[5]. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики[6]. Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).

Авторами [3] было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3.4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53.6 тысячи против 15.7 тысяч.

Применение викисловарей в задачах автоматической обработки текста и речи

Для использования лексикографических данных викисловарей при решении задач автоматической обработки текста и речи — необходимо преобразовать тексты словарных статей (слабоструктурированные данные[7]) в машиночитаемый формат[8][9][10].

Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности[11]: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей[Прим 3], (3) технология вики изначально ориентирована на удобство работы человека, а не на машинную обработку.

Существует несколько парсеров для разных викисловарей[12]:

  • DBpedia Wiktionary — одно из расширений проекта DBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи[13], регулярные выражения[14] и FST-разновидность конечного автомата[15].
  • JWKTL (Java Wiktionary Library) — API к данным Английского и Немецкого Викисловарей[16]. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
  • wikokit — парсер Английского и Русского Викисловарей[17]. Извлекаются: язык, часть речи, толкование, цитаты[18] (только для Русского Викисловаря), семантические отношения[19] и переводы. Исходный код программы доступен на условиях открытой мульти-лицензии.

С помощью викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи[20]:

  • машинный перевод на основе правил между нидерландским и языком африкаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы Apertium[21];
  • создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, WordNet и VerbNet[22]. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика Screen scraping;
  • распознавание и синтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений[23]. Извлекаются пары слово-произношение (транскрипция в системе МФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей[Прим 4]. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря[24];
  • построение онтологий[25] и баз знаний[26];
  • отображение онтологий[27];
  • упрощение текста. В работе [28] выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы[28] предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
  • частеречная разметка. В работе (Ли и др., 2012)[29] на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием скрытых марковских моделей.[Прим 5]
  • анализ тональности текста[30].

См. также

Комментарии

Примечания

  1. ↑ Глобальный рейтинг сайта Викисловарь (англ.). Alexa Internet. Проверено 9 сентября 2017.
  2. ↑ 1 2 Zesch et al, 2008, p. 2.
  3. ↑ 1 2 Смирнов и др., 2012.
  4. ↑ Статистика викисловарей: Размер базы данных
  5. ↑ Статистика викисловарей
  6. ↑ Статистика викисловарей: Байтов на статью
  7. ↑ Meyer and Gurevych, 2012, p. 140.
  8. ↑ Zesch et al, 2008, Figure 1, p. 4.
  9. ↑ Meyer and Gurevych, 2010, p. 40.
  10. ↑ Крижановский, Преобразование, 2010, с. 1.
  11. ↑ Hellmann and Auer, 2013, стр. 16 в PDF, p. 302.
  12. ↑ Hellmann et al, 2012, Table 1, p. 3.
  13. ↑ Hellmann et al, 2012, pp. 8—9.
  14. ↑ Hellmann et al, 2012, p. 10.
  15. ↑ Hellmann et al, 2012, p. 11.
  16. ↑ Zesch et al, 2008.
  17. ↑ Крижановский, Преобразование, 2010.
  18. ↑ Крижановский, 2011.
  19. ↑ Крижановский, Сравнение, 2010.
  20. ↑ Смирнов и др., 2012, pp. 233—234.
  21. ↑ Otte and Tyers, 2011.
  22. ↑ McFate and Forbus, 2011.
  23. ↑ Schlippe et al., 2012.
  24. ↑ Schlippe et al., 2012, p. 4804.
  25. ↑ Meyer and Gurevych, 2012.
  26. ↑ ConceptNet 5. Проверено 17 апреля 2013. Архивировано 19 апреля 2013 года.
  27. ↑ Lin and Krizhanovsky, 2011.
  28. ↑ 1 2 Medero and Ostendorf, 2009.
  29. ↑ Li et al, 2012.
  30. ↑ Chesley et al, 2006.

Литература

  • Li S., Graça J. V., Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389—1398. Архивировано 22 мая 2013 года.
  • McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. — ISBN 978-1-932432-88-6.

wikipedia.green

Викисловарь — Википедия РУ

Лексикографическая концепция

Благодаря взаимосвязи между разными языковыми разделами Wiktionary, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать концепции, инструменты и лексикографические материалы, созданные их коллегами — носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная концепция универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Концепция предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах лексической единицы, её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой концепции может варьироваться в разных языковых разделах проекта.

В каждом языковом разделе «титульный» язык является центральным — все статьи пишутся исключительно на нём, кроме того, ставится цель дать переводы слов и других единиц этого языка на максимально возможное число других языков. Слова других языков переводятся, как правило, только на этот «титульный» язык. Так, в русском Викисловаре для русских слов даются толкования и переводы на иностранные языки, для иностранных слов вместо толкований даются переводы на русский язык.

При описании морфологии делается попытка дать максимально полную картину словоизменения, включая указание класса словоизменения. В частности, морфологические сведения по русским лексемам даются в соответствии с классификацией, предложенной А. А. Зализняком.

Для пополнения Викисловаря создан обширный список литературы, в Английском Викисловаре выработаны правила по включению термина в словарь (см. Criteria for inclusion). В отличие от русской Википедии, где приоритет при подборе материала отдаётся авторитетным источникам[Прим 1], в русском Викисловаре превалирует проведённый редактором статьи анализ словоупотребления[Прим 2].

Тезаурус

Викисловарь содержит следующие семантические отношения: синонимы, антонимы, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы.

Википедия и Викисловарь

Викисловарь не включает подробного описания фактов и энциклопедической информации. Тем не менее Викисловарь предоставляет уникальную информацию, отсутствующую в Википедии: словосочетания, поговорки, аббревиатуры, акронимы, описание ошибок правописания, упрощённые/искажённые варианты написания / произнесения слов, спорные случаи употребления, протологизмы, ономатопею, разные стили (напр., разговорный) и предметные области[2]. Таким образом, Википедия и Викисловарь дополняют друг друга.

Викисловарь сходен с Википедией в том, что (1) есть внутренние ссылки на статьи о словах внутри Викисловаря, (2) есть категории, (3) есть интервики, ссылающиеся на статьи о том же слове в иноязычном словаре[2].

Связывание проектов

Участникам Википедии рекомендуется добавлять в статьи шаблон «викисловарь» (например, {{викисловарь|Викисловарь}}) для связывания с соответствующей статьёй Викисловаря. Чтобы сделать обратную ссылку на странице Викисловаря, используется шаблон «википедия» (например, {{википедия|Википедия}}).

Применение таких шаблонов позволяет сгладить острые углы проблемы «энциклопедия или словарь» и делает доступ к информации удобнее, поскольку предоставляет ссылку на дополнительную лингвистическую информацию о термине в энциклопедии, и, наоборот, даёт ссылку на глубокое описание значения слова в словаре, в целом улучшая «связность» статей в проектах Фонда Викимедиа.

Если требуется указать ссылку на определение слова непосредственно в тексте статьи (шаблон «викисловарь» добавляет целый блок), используются межпроектные интервики-ссылки, которые задаются следующим образом: [[wikt:ru:слово|слово]] или более коротко [[:wikt:слово|]] и выглядят так: слово.

Русскоязычный раздел

Динамика развития русского Викисловаря

Русский раздел Wiktionary был создан весной 2004 года. На протяжении полутора лет он практически не развивался, пополняясь бессистемно, преимущественно недоброкачественным материалом. Ситуация начала меняться в конце 2005 — начале 2006 годов.

В 2006 году был назначен первый администратор, объём статей увеличился почти в четыре раза по сравнению с предыдущим годом, создан мощный инструментарий для описания морфологии, начала формироваться развитая система семантических категорий.

К осени 2006 года число статей в русском Викисловаре достигло 10 000; затем, благодаря созданию бота, использующего словники других разделов Wiktionary для генерации статей-болванок в русском разделе, за полтора месяца было добавлено ещё около 70 000 статей. 7 ноября 2006 года Викисловарь преодолел отметку 80 000, а 10 декабря 2006 года был взят рубеж в 100 000 статей. 21 марта 2009 года количество статей выросло до 200 000. Число активных участников составило порядка 20.

В отличие от ситуации с традиционными словарями полнота Викисловаря не может быть адекватно оценена по формальному показателю количества статей. Автоматический счётчик не делает различий между полупустыми болванками и по-настоящему информативными статьями, кроме того, он не учитывает внутриязыковую и межъязыковую омонимию. К примеру, словарный вход бор числится как одна статья, между тем в этой статье описано несколько омонимичных лексем русского языка, а также одноименные лексемы других языков (болгарского, татарского), — в традиционных словарях этот материал был бы оформлен и учтён в виде нескольких статей.

Сравнение с другими Викисловарями

  Число русских слов в Русском Викисловаре (слева) и в Английском Викисловаре (справа)[3], данные на 2011 год

Начиная с августа 2008 года русский Викисловарь вышел на первое место по размеру базы данных среди всех викисловарей[4]. В то же время, количество статей в русском Викисловаре не самое большое[5]. Это отчасти объясняется тем, что у проектов, в которых статей больше, чем в русском Викисловаре, статьи могут иметь в среднем меньший размер, в чём можно убедиться на сайте статистики[6]. Кроме того, русский Викисловарь по сравнению с другими разделами Wiktionary содержит большее количество вспомогательной информации, включая справочные таблицы, списки частотных слов и т. п. (в отличие от словарных статей, составляющих так называемое основное пространство имён, такая информация размещается в разделах «Приложения», «Индексы» и т. п.). Значительное количество статей в русском Викисловаре всё ещё являются болванками, сгенерированными ботами. Хотя иногда и можно встретить критику большого количества статей-болванок, такая предварительная разметка даёт много преимуществ. Во-первых, она помогает быстрее создавать статьи за счёт предварительного включения некоторой информации, типа части речи описываемого слова. Во-вторых, структура статей стандартизируется. За счёт повсеместного применения шаблонов (которые обычно сразу проставляются ботами при автоматическом создании статей) возникает возможность централизованно менять внешний вид сразу многих статей. Наличие большого количества шаблонов также помогает проводить дальнейшее автоматизированное редактирование уже созданных статей — например, автоматически проставлять перевод по заранее подготовленным словарям (так как ботам легче ориентироваться в структуре статьи, уже размеченной специализированными конструкциями, а не человеческим языком). Отличительной особенностью русского Викисловаря является проработанная концепция развития (которую можно найти на главной странице). Из-за проработанной концепции и широкого применения шаблонов, статьи в русском Викисловаре выглядят более однотипно, чем во многих других проектах (в основном одинаковы количество разделов, порядок их следования, оформление каждого раздела).

Авторами [3] было подсчитано число словарных статей о русских словах, число статей с толкованиями и без них — в двух Викисловарях (на иллюстрации). Политика редакторов Английского Викисловаря (не создавать статей-заготовок) подтвердилась: словарных статей о русских словах без толкований всего 5,57 %. В Русском Викисловаре таких статей — 60,39 %. Однако в Русском Викисловаре (по данным на 2011 год) почти в 3.4 раза больше словарных статей с толкованиями для русских слов, чем в Английском Викисловаре: 53.6 тысячи против 15.7 тысяч.

Применение викисловарей в задачах автоматической обработки текста и речи

Для использования лексикографических данных викисловарей при решении задач автоматической обработки текста и речи — необходимо преобразовать тексты словарных статей (слабоструктурированные данные[7]) в машиночитаемый формат[8][9][10].

Извлечение данных из викисловарей является непростой задачей. Можно выделить следующие трудности[11]: (1) регулярное и частое изменение как данных, так и самой структуры статей, (2) разные викисловари имеют различную структуру и формат статей[Прим 3], (3) технология вики изначально ориентирована на удобство работы человека, а не на машинную обработку.

Существует несколько парсеров для разных викисловарей[12]:

  • DBpedia Wiktionary — одно из расширений проекта DBpedia, данные извлекаются из Английского, Французского, Немецкого и Русского Викисловарей. Извлекаются: язык, часть речи, толкование, семантические отношения, переводы. Для извлечения данных используются: декларативное описание структуры словарной статьи[13], регулярные выражения[14] и FST-разновидность конечного автомата[15].
  • JWKTL (Java Wiktionary Library) — API к данным Английского и Немецкого Викисловарей[16]. Извлекаются: язык, часть речи, толкование, цитаты, семантические отношения, этимология и переводы. Программа доступна для некоммерческого использования.
  • wikokit — парсер Английского и Русского Викисловарей[17]. Извлекаются: язык, часть речи, толкование, цитаты[18] (только для Русского Викисловаря), семантические отношения[19] и переводы. Исходный код программы доступен на условиях открытой мульти-лицензии.

С помощью викисловарей решаются разнообразные задачи, связанные с обработкой текста и речи[20]:

  • машинный перевод на основе правил между нидерландским и языком африкаанс; используются данные Английского и Нидерландского Викисловарей и двух википедий в рамках системы Apertium[21];
  • создание машиночитаемого словаря парсером NULEX, интегрирующего открытые лингвистические ресурсы: Английский Викисловарь, WordNet и VerbNet[22]. Для существительного из Английского Викисловаря извлекались часть речи и форма множественного числа, для глаголов — время. Для извлечения данных из Викисловаря использовалась методика Screen scraping;
  • распознавание и синтез речи, где Викисловарь выступает в роли источника данных для автоматического построения словаря произношений[23]. Извлекаются пары слово-произношение (транскрипция в системе МФА) из Чешского, Английского, Французского, Немецкого, Польского и Испанского Викисловарей[Прим 4]. При проверке самое большое число ошибок оказалось в транскрипциях, извлечённых из Английского Викисловаря[24];
  • построение онтологий[25] и баз знаний[26];
  • отображение онтологий[27];
  • упрощение текста. В работе [28] выполняется оценка сложности слов на основе данных Викисловаря. Для слова из Английского Викисловаря извлекаются: размер словарной статьи, число частей речи, число значений и число переводов. Авторы[28] предположили, что более простыми, базовыми, употребимыми будут те слова, у которых больше значений (то есть размер статьи будет больше), больше частей речи и больше переводов. Далее найденные в тексте «сложные» слова необходимо перефразировать, найти более «простые» эквиваленты, что приведёт к упрощению (адаптации) текста;
  • частеречная разметка. В работе (Ли и др., 2012)[29] на основе данных Английского Викисловаря построены POS-tagger’ы для восьми языков, имеющих «бедные лингвистические ресурсы», с использованием скрытых марковских моделей.[Прим 5]
  • анализ тональности текста[30].

См. также

Комментарии

Примечания

  1. ↑ Глобальный рейтинг сайта Викисловарь (англ.). Alexa Internet. Проверено 9 сентября 2017.
  2. ↑ 1 2 Zesch et al, 2008, p. 2.
  3. ↑ 1 2 Смирнов и др., 2012.
  4. ↑ Статистика викисловарей: Размер базы данных
  5. ↑ Статистика викисловарей
  6. ↑ Статистика викисловарей: Байтов на статью
  7. ↑ Meyer and Gurevych, 2012, p. 140.
  8. ↑ Zesch et al, 2008, Figure 1, p. 4.
  9. ↑ Meyer and Gurevych, 2010, p. 40.
  10. ↑ Крижановский, Преобразование, 2010, с. 1.
  11. ↑ Hellmann and Auer, 2013, стр. 16 в PDF, p. 302.
  12. ↑ Hellmann et al, 2012, Table 1, p. 3.
  13. ↑ Hellmann et al, 2012, pp. 8—9.
  14. ↑ Hellmann et al, 2012, p. 10.
  15. ↑ Hellmann et al, 2012, p. 11.
  16. ↑ Zesch et al, 2008.
  17. ↑ Крижановский, Преобразование, 2010.
  18. ↑ Крижановский, 2011.
  19. ↑ Крижановский, Сравнение, 2010.
  20. ↑ Смирнов и др., 2012, pp. 233—234.
  21. ↑ Otte and Tyers, 2011.
  22. ↑ McFate and Forbus, 2011.
  23. ↑ Schlippe et al., 2012.
  24. ↑ Schlippe et al., 2012, p. 4804.
  25. ↑ Meyer and Gurevych, 2012.
  26. ↑ ConceptNet 5. Проверено 17 апреля 2013. Архивировано 19 апреля 2013 года.
  27. ↑ Lin and Krizhanovsky, 2011.
  28. ↑ 1 2 Medero and Ostendorf, 2009.
  29. ↑ Li et al, 2012.
  30. ↑ Chesley et al, 2006.

Литература

  • Li S., Graça J. V., Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389—1398. Архивировано 22 мая 2013 года.
  • McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. — ISBN 978-1-932432-88-6.

http-wikipediya.ru



О сайте

Онлайн-журнал "Автобайки" - первое на постсоветском пространстве издание, призванное осветить проблемы радовых автолюбителей с привлечение экспертов в области автомобилестроения, автоюристов, автомехаников. Вопросы и пожелания о работе сайта принимаются по адресу: Онлайн-журнал "Автобайки"