bgmt | перепост из ФБ

Entry tags:

Сегодня я впервые столкнулся с некой совершенно неожиданной вещью. В Ленинской библиотеке - как известно, это главная библиотека России - мне вернули мое требование на старый немецкий морфологический журнал, который я уже однажды брал зимой 2019 года. Мотивация отказа: это издание отправлено на штабелирование в Можайск. Оказывается, уже много лет редко востребованные издания изымаются с полок, вывозятся и просто складываются в ангарах (по 350 тысяч экземпляров в год). Выдача этих книг, да и простой поиск их в таком хаотичном массиве, конечно, невозможен - и эти книги считаются изъятыми практически навсегда и не подлежащими выдаче. Делается это потому, что новые поступающие экземпляры уже негде хранить. При этом продажу и раздачу ненужных экземпляров библиотеке запретили ещё в 2020 году. На мое замечание, что такое "штабелирование" равносильно и даже хуже, чем сдача в макулатуру или сожжение - мне ответили на полном серьёзе, что, мол, потомки разберут. И благо было бы, если бы, допустим, нужную книгу можно было бы изъять по особому требованию - например, с оплатой в 1000 рублей и с ожиданием в месяц - так ведь нет, там, видимо, такой хаос, что поиск чего-либо исключен. Также было бы понятно, если бы туда отправляли издания после оцифровки в высоком разрешении - так нет, оказывается, у них на это нет денег и специалистов! В общем, tempora mutantur- но я все равно удивлен! Мне казалось, что, если главная библиотека страны для чего и нужна - так это для добывания редких изданий, а не современного ширпотреба (который как раз следует обязать присылать из издательств только в электронном виде). Журнал, который я запрашивал, едва ли есть ещё где-нибудь в России.
UPD: в комментах есть весьма показательные ссылки - как и следовало полагать, особой катастрофой это стало для историков (я же естественник - врач и биолог, так что не удивительно мое позднее знакомство с таким презанятнейшим явлением; слава Богу, статью из искомого журнала я оцифровал еще в 2019, мне были нужны только картинки из нее в хорошем разрешении; понимаю также, что собранная личная библиотека на этом фоне становится особенно ценной).
UPD2: ситуация мне кажется похожей, как если бы какой-нибудь чиновник отменил установку громоотводов зданиях - а зачем, ведь вероятность поражения молнией конкретно этого строения очень мала, а тут такая экономия металла!
UPD3: в комментарии к одному из репостов я увидел, что комплекты редких журналов уничтожаются и в Сорбонне; мне, однако, кажется, что в главной государственной библиотеке страны "штабелирования" или полного уничтожения какого-либо издания (речь не идет о дублетных экземплярах) все равно быть не должно. Впрочем, если даже папки личного архива Брежнева подобрал на помойке и теперь хранит у себя известный журналист Л.Млечин, то о книгах, наверное, нечего и говорить.

Flat | Top-Level Comments Only

Лет 20 с лишним назад казалось, что совершен акт благодеяния, когда разрешили продавать старые книги всем желающим, между тем как ранее их только уничтожали. Возврат к варварству.

Это давно известная и совершенно позорная и абсурдная практика, бытовавшая, кажется, ещё с советских времён. Но теперь-то перед списанием бумажных экземпляров можно ведь их оцифровать...

А на фига им?

(Кстати, в советское время, если б была оцифровка, может и оцифровали бы. Не примите за панегирик советской власти).

Угу.

В советское время не было оцифровки, но было микрофильмирование газет, например.
Тем не менее, книги в то время не микрофильмировались.

Ну, микрофильмирование гораздо больше трудоёмкая процедура, чем оцифровка. И микрофильмы тоже нуждаются в хранении, причём с условиями относительно температуры и влажности. В отличие от файлов.

Я занимаюсь оцифровкой с начала 2000-х. Проблемы одни и те же — файлы также нуждаются в хранении и тоже в достаточно специфических условиях (те же CD могут "осыпаться" при длительном хранении). Мало того, очень быстро меняются сами носители данных и для чтения некоторых файловых архивов вы уже просто не найдете соответствующих устройств. Поэтому нужно достаточно оперативно сбрасывать данные на новые носители, следя за тем, чтобы не пропустить "битые" файлы и т.д.

Тем не менее, вопрос ведь не в этом, а в том, что если в советские годы была возможность перенести на микрофиши и микрофильмы газет и журналов, то перенос на них же редкоиспользуемых книг также зависел только от политической воли руководства. Но, как видим, такой воли не было.

Вы, видимо, знаете это гораздо подробнее других. Бывали ли исключения?

Исключения из чего?
Есть два реальных факта:
а) микрофиши и микрофильмы газет при СССР создавались (в частности, в 1980-х в Стэнфорд были переданы микрофильмы выпусков газеты "Правда" и др.; их и в начале 2000-х можно было посмотреть в библиотеке университета);
б) о микрофишах и микрофильмах библиотечных книг, созданных при СССР, — неизвестно.
Где здесь можно провести исключения?

А это никак не связано с тем фактом, что фотографировать книги очень сильно сложнее? Сейчас есть софт, позволяющий выпрямить страницу. Тогда нужна была установка, поддерживающая книгу в полностью раскрытом состоянии, и ещё переворачивающая страницы. Т.е. это было много, много дороже и дольше, чем для газет.

Я вовсе не пытаюсь сказать, что власть заботилась о сохранности культуры. Но кроме культуры, были документы (в том числе книги), которые были нужны в полной сохранности ей самой. Именно про такие исключения я и спрашивал.

Нет, не связано. Книги, особенно редкие (но не раритетные, для этих есть свои методы), нужно регулярно восстанавливать, для чего делалась расшивка книги на отдельные листы, восстановление корешка и обложек, восстановление отдельных листов, а затем обратная сшивка книги. Даже в местных библиотеках это довольно рутинная работа для библиотекаря.

Что же касается документов, то скорее всего, нет, не микрофильмировались. Обычно на подобные документы ставился определенный гриф секретности и допуск к ним резко ограничивался. Микрофильм или микрофиша это дополнительный канал возможной утечки сведений из этих документов.

Да, хранение файлов в расчете на десятилетия - это сложная и дорогая задача.
Может быть, даже сложнее и дороже, особенно с учетом требуемой квалификации хранителей, чем хранение той же информации на бумаге. Даже если на бумаге чисто "цифровая" информация (текст), оформление совершенно неважно, и цена хранения пересчитывается "на килобайт текста".

Почему? Сегодня, когда можно сделать хоть тыщу дубликатов файла, и запузырить их на самые разные хранилища, облачные и дисковые?

Во-первых, как их всех потом найти?
Если файл 1 (один!), то еще может быть реалистично помнить все места резервного копирования и руками их проверить. А если 10 тысяч? Миллион?
Разработка и поддержка системы, которая по человеческому описанию (а хотя бы даже и точной библиографической ссылке) автоматически проверяла все места резервного хранения и выдавала надежную , не-битую, версию — непроста и стоит денег. С учетом постоянно меняющейся логистики и API систем хранения — требует квалификации и постоянного внимания.

Во-вторых, на облака я бы не полагался просто никак, в наши времена глобализации.

Не понял. Мне казалось (я не специалист, конечно), что каталогизация и поддержка реестра и поиска по реестру сейчас разработана великолепно, и увеличение объёмов данных не приводит к проблеме потери их адреса.
Кстати, вот сейчас будут ещё жёсткие диски на графене, ещё один порядок величин выигран.

Пока что есть наблюдаемый факт — за 20-30 лет массового хранения данных в цифровом виде видно, что на бумаге информация сохраняется все же лучше и остается более доступной в практическом отношении.
То есть для тех документов, что постоянно в ходу — для них конечно удобнее цифровой формат.
Но для тех, к которым раньше обращались раз в 10-20 лет — теперь оказывается, что не обращаются вовсе, они почему-то оказались насовсем потеряны из поля зрения. (это у меня такое впечатление сложилось, по рассказам очень многих естественников и гуманитариев, особенно вот историков и архивистов).

Если бы легко было достоверно найти 1-2 простые причины, почему так, было бы очень хорошо.
Можно придумать множество разных правдоподобных причин, может быть они они все работают в совокупности, может быть есть еще какие-то, очень неочевидные.
Для начала могу указать вот такую — замечательные и мощные системы каталогизации доступны крупным компаниям. Но в наше время у крупных компаний свои интересы по отношению к информации, отличные от "сделать доступной удобно и всем желающим".
Поэтому полагаться в смысле сохранности и доступности можно только на личные архивы цифровых носителей. Тут да, прогресс емкости налицо — но для частного лица поддерживать хороший каталог и систему поиска уже может быть очень трудной задачей.

Edited 2021-06-07 10:47 (UTC)

А не может ли быть, что это проблема ликбеза? Что гуманитары часто просто не умеют обращаться с компьютерной каталогизацией и поиском? Что они называют файлы абы как, суют их абы куда, потом забывают и то, и другое, и плохо пользуются поиском?
Мы ведь видим это массово на фотографиях. Вот уже выпускаются флэшки, собирающие фотографии со всего компьютера, потому что владелец не знает, куда он их засовывал. Вот, слава те господи, на некоторых телефонах фотографии стали называться так, что в названии уже содержится дата. (Очень ценю!)
Но компьютерная культура приобретается. Если дело в обучении, это преодолимо.

Оптимист :-) Я тебе рассказывал историю из французского мин. финансов, когда пришли стартаперы, поставили им умный софт, который ищет и каталогизирует информацию не по ключевым словам, а по специально под их нужды построенные сети концептов. 2 недели обучения, настроили тестовую версию, поставили на выходные краулить, в понедельник приходят: миллионы документов разложены по полочкам, всё блестит и готово к употреблению. Вопрос из зала: а где кнопка "распечатать всё"? А то я привыкла работать с бумажной версией...

Edited 2021-06-08 08:46 (UTC)

Да всё просто. Посмотри на стоимость хранения самых базовых провайдеров (порядок: 100€ / в год / за терабайт). И это стоимость без гарантии сохранности — если у них всё полетит, то они просто скажут "ой, простите". С гарантией я бы добавил 1-2 порядка к цене.

Что такое терабайт — если ты сканируешь книгу в 200 dpi, каждая страница порядка 1 Mb, и это тоже архивирование с потерями — явно не библиотечный стандарт, на него я бы добавил 1-2 порядка.

То есть, только хранение, и по самому базовом тарифу выходит 10 000 страниц в год за 1€. С вариантом в 10-100 страниц за те же деньги, если гарантия и качество.

Отдельно прикинь стоимость оцифровки. Даже если у тебя есть уже и волшебный, выправляющий все углы софт, и фотоаппараты со столами, ничего не надо покупать. Только персоналу платить. Адский труд. Даже если учесть разницу в зарплатах — бюджет Ленинки в 10 раз меньше бюджета BNF (25 миллионов против 250).

Дигитализация, кроме хранения и оцифровки, преполагает оформление метаданных (скажем, надо оцифровать 22.000 исламских рукописей, как в немецком проекте Orient-digital...), лицензирование, представление данных в межбиблиотечные обменные сети, распознавание текста и контроль качества, работа хабов, централизирующих данные, системы обработки запросов и предоставления информации. Причем, если на собираются силы на какой-нибудь специфический проект (например, выделили грант на 3 года ориенталистам), то нужно еще быстро идентифицировать максимум объектов, соответствующим параметрам выбора, по библиотекам. А чтобы не захлебнуться, нужно параллельно и все новые поступления оцифровывать on the fly, для чего нужно вкладываться в инфраструктуру для электронных публикаций, систем предоставления цифровой научной информации итд. Немецкая DFG предоставляет библиотекам на все это 60-70 миллионов в год, этот бюджет трещит по швам.

Ой, точно, метаданные! Умножаем всё на 2 :-)

prosto_vitjok, я у вас забанен — то ли вы не на ту кнопку нажали, то ли я даже не заметил / забыл, когда вам нахамить успел...

Попали, думаю, под один из моих кармических фильтров. Бан снят, пишите-с :)

Можно сделать, но где гарантия, что оригинальный файл не является испорченным или его часть не прописана в "битом" секторе диска? В этом случае, внешне этот файл выглядит как нормальный и подлежащий копированию, но прочесть его устройство считывания не сможет. В результате мы храним кучу файлов, но определить, в рабочем ли они состоянии, без специального оборудования невозможно.

При этом, чисто психологически мы воспринимаем наличие нескольких копий одного и того же файла, как совершенно ненужное заполнение рабочего пространства, и удаляем "лишние" копии (третью, четвертую и т.д.). А со временем часто оказывается, что сохраненными оказываются именно "битые" файлы, а рабочие были именно те, которые мы удалили.

Насколько я понимаю, конкретно это — не проблема. Можно же периодически читать файл и считать его чек-сумму, сверяя с оригинальной. Если не сходится — файл битый, копируем не его, а на него, с другого, достоверного хранилища.

Проверка чек-сумм невозможна без упомянутого мною в предыдущем комментарии специального оборудования (в данном случае, компьютера). Но даже если отбросить этот момент, то нет гарантии, что контрольная чек-сумма не взята с "битого" оригинала.
Для примера. В моей практике неоднократно бывали случаи, когда при создании djvu-файла информация из него первоначально отображалась в редакторе вполне корректно, но при повторной загрузке этого же файла почему-то возникала ошибка, приводящая к падению этого редактора. При этом целостность самого созданного файла не нарушалась и чек-сумма этого файла вполне себе могла служить эталоном, просто сам файл уже содержал ошибку.

Вы говорите о файлах, "битых" информатически, а не по содержанию. Конечно, ошибку в содержании никакой софт не выявит. Но файл, содержащий ошибку, касающуюся его применимости в данном приложении, наверняка можно выявить автоматически, нет? Даже если вдруг (мало вероятно) таких программ готовых нет, их можно создать, и они многократно окупятся.

>Вы говорите о файлах, "битых" информатически, а не по содержанию.

Не понял, что такое "информатически".
Ошибки в "теле" файла можно попытаться выловить автоматически специально разработанными программами, но затраты на создание и поддержку подобных программ не смогут окупиться, так как простейшая проверка это открытие файла в данном конкретном приложении. Если файл не открывается, то файл "битый".
Проблема в том, что при массовом автоматическом создании файлов нет специального времени на дополнительную проверку и вынесение решения по файлу (вдруг это был сбой не файла, а проверочной программы или системы в целом — например, перегрузка процессора или памяти в конкретный момент времени). Поэтому данные о таких файлах откладываются на "потом", сам файл сохраняется с примечанием о возможной проблеме и попадает в архив как единственный на данный момент доступный экземпляр. В идеале со временем он заменяется на нормальный, но на практике это часто не происходит, и мы получаем "битый" файл в качестве эталонного.

Ленинская библиотека... как вы лодку назовете так она и поплывет.

Ну я не думаю, что если б она была имени Николая Второго, дела в ней шли бы лучше. Да собственно. даже если Герцена.

Flat | Top-Level Comments Only

перепост из ФБ

Манских Василий

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject