NetNado
  Найти на сайте:

Учащимся

Учителям



37. Проектирование баз данных. Проектирование с использованием метода сущность – связь, средства поддержки проектирования (erwin)


37. Проектирование баз данных. Проектирование с использованием метода сущность – связь, средства поддержки проектирования (ERWin).

Проектирование баз данных — процесс создания схемы базы данных и определения необходимых ограничений целостности



Модель «сущность-связь» (англ. Entity-Relationship model) или ER-модель является наиболее известным представителем класса семантических (концептуальных, инфологических) моделей предметной области. ER-модель обычно представляется в графической форме

Основные преимущества ER-моделей:

  • наглядность;

  • модели позволяют проектировать базы данных с большим количеством объектов и атрибутов;

  • ER-модели реализованы во многих системах автоматизированного проектирования баз данных (например, ERWin).

Основные элементы ER-моделей:

  • объекты (сущности);

  • атрибуты объектов;

  • связи между объектами.

Сущность — объект предметной области, имеющий атрибуты.

Связь между сущностями характеризуется:

  • типом связи (1:1, 1:N, N:М);

  • классом принадлежности. Класс может быть обязательным и необязательным. Если каждый экземпляр сущности участвует в связи, то класс принадлежности — обязательный, иначе — необязательный.



38. Традиционные методики проектирования БД, современная интеграционная методика проектирования.







39. Проектирование системы баз данных на принципах единой информационной среды. &

43. Единая информационная среда.

Под информационной средой будем понимать систему, объединяющую:

  • корпоративную вычислительную сеть, обеспечивающую технические и технологические аспекты ИКТ (собственно сеть, компьютеризированные рабочие места и аудитории)

  • информационные ресурсы (собственные и внешние) и сервисы, используемые в управлении, в собственно образовательной и научно-исследовательской деятельности

  • программное обеспечение (базовое, системное, специальное)

Функционирование, а тем более развитие, любого направления деятельности в настоящее время не мыслимо без широкого использования информационно-коммуникационных технологий (ИКТ), поэтому вопросы развития информационной среды (ИС) университета охватывают не только 5 и 8, но все другие направления ИОП и имеют первостепенное значение.

Особенности вуза, влияющие на создание современной ИС

1) вуз имеет в функциональной части (логистике) специфические образовательную, научно-исследовательскую и административно-хозяйственную сферы деятельности (уникальное оборудование и программы);

2) информация является и ресурсом и инструментом и результатом деятельности, в связи с чем, появляется два вида взаимосвязанных информационных ресурсов – для управления и для технологии (собственно деятельности), определяется особая роль документа как основного носителя информации и все возрастающая роль менеджмента знаний (интеграция);

3) основными объектами информационной модели являются личности, они также могут выступать и как исходный ресурс, и как предмет (объект) деятельности, и как производитель (субъект) и как конечный продукт деятельности (интеграция);

4) кадровый состав сотрудников таков, что значительная часть имеет возраст 50 и более лет и недостаточность состава от 30 до 50 лет (повышение квалификации как базовой, так и специальной).
40. Современные направления использования баз данных.

Новые направления использования БД связаны, в основном:

- с повсеместным использованием корпоративных и глобальных вычислительных сетей;

- со значительной «историей» функционирования информационных систем.
Первое направление (работа в сети), в свою очередь, связано:

- с проблемами параллельной (одновременной) работы многих, удаленных приложений (пользователей) с одной и той же БД (новые проблемы комплексного использования информации, теперь уже баз данных);

- со стремлением повышения надежности и эффективности работы информационных систем за счет распределения данных и их обработки между узлами сети.
Второе направление (накопление информации) приводит:

- к необходимости интеграции данных и приложений созданных в разные периоды времени, в различных информационно-программных средах (ОС, СУБД, инструментальных средствах);

- к новым подходам к использованию «исторических» данных (Warehouse , OLAP , Data Mining , Management knowledge)
Проблема одновременной (параллельной) работы пользователей с одной БД прежде всего связывается с реализацией файл-серверной и клиент-серверной технологиями удаленной работы с БД.
В обоих случаях это сетевая технология с выделением в сети сервера – спец компьютер с большой памятью, где размещается БД, но:

Технология файл-сервер

При обращении программы к данным БД сервера ВСЯ БД передается ПО СЕТИ на рабочую станцию, где и осуществляется обработка (как правило отбор необходимой информации из большой БД). В итоге, кроме того, что рабочая станция д.б. достаточно мощным ПК (СУБД там работает) и просмотр большого числа записей БД - ПЕРЕГРУЗКА СЕТИ.

Технология клиент-сервер

Программа на рабочей станции (клиентская часть) обращается к БД (к SQL-серверу). с запросом, как правило на языке SQL - это м.б. несколько десятков строк.

Выборка данных осуществляется на мощной машине сервера с помощью серверной части – программы СУДБ (MS SQL, MySQL и др.) и возвращается ответ – м.б. один или несколько экранов.

В итоге, сеть не загружена, рабочая станция м.б.не такой мощной, проще организовать распределенную обработку и защиту данных, оптимизировать работу БД

Проблема файл-серверной технологии – перегрузка сети и необходимость мощной рабочей станции (компьютера пользователя) в связи с тем, что БД целиком перемещается по сети к каждой рабочей станции и вся обработка осуществляется на ней.

При стандартной 2-х уровневой технологии клиент- сервер основная обработка осуществляется на сервере (как правило – SQL-сервер) – все, что можно «выжать» из SQL – делается на мощной машине сервера.

41. Распределенные базы данных и распределенная обработка.

Под распределенной (Distributed DataBase - DDB) обычно подразумевают базу данных, включающую фрагменты из нескольких баз данных, которые располагаются на различных узлах сети компьютеров, и, возможно управляются различными СУБД. Распределенная база данных выглядит с точки зрения пользователей и прикладных программ как обычная локальная база данных. В этом смысле слово "распределенная" отражает способ организации базы данных, но не внешнюю ее характеристику.

Основная задача систем управления распределенными базами данных состоит в обеспечении средства интеграции локальных баз данных, располагающихся в некоторых узлах вычислительной сети, с тем, чтобы пользователь, работающий в любом узле сети, имел доступ ко всем этим базам данных как к единой базе данных

При этом должны обеспечиваться:

- простота использования системы;

- возможности автономного функционирования при нарушениях связности сети или при административных потребностях;

- высокая степень эффективности.

Перечислим основные принципы создания и функционирования распределенных БД:

  • прозрачность размещения данных для пользователя (пользователю распределенная БД должна представляться точно так же, как и нераспределенная);

  • изолированность пользователей друг от друга (на работу одного пользователя с БД не должна влиять работа других пользователей с ней);

  • синхронизация БД и непротиворечивость состояния данных в любой момент времени.

Дадим более подробный перечень принципов распределенной БД, сформулированных К. Дейтом:

1.Локальная автономия. Это качество означает, что управление

данными на каждом из узлов распределенной системы выполняется локально. База данных, расположенная на одном из узлов, является неотъемлемым компонентом распределенной системы. Будучи фрагментом общего пространства данных, она в то же

время функционирует как полноценная локальная база данных, а управление ею осуществляется локально, независимо от других узлов системы.

2.Независимость узлов. Все узлы равноправны и независимы, а расположенные на них БД являются равноправными поставщиками данных в общее пространство данных. База данных на каждом из узлов полностью защищена от несанкциониро­ванного доступа.

3.Непрерывность операций. Это возможность непрерывного доступа к данным в рамках распределенной БД вне зависимости от их расположения и вне зависимости от операций, выполняемых на локальных узлах.

4.Прозрачность расположения. Пользователь, обращающийся к БД, ничего не должен знать о реальном, физическом размещении данных в узлах информационной системы.

5.Прозрачная фрагментация. Возможность распределенного (т. е. на различных узлах) размещения данных, логически представляющих собой единое целое. Существует фрагментация двух типов: горизонтальная и вертикальная. Первая означает, что строки таблицы хранятся на различных узлах. Вторая означает распределение столбцов логической таблицы по нескольким узлам.

6.Прозрачное тиражирование. Тиражирование данных — это асинхронный процесс переноса изменений объектов исходной базы данных в базы, расположенные на других узлах распределенной системы.

7.Обработка распределенных запросов. Возможность выполнения операций выборки данных из распределенной БД, посредством запросов, сформулированных на языке SQL.

8.Обработка распределенных транзакций. Возможность выполне­ния операций обновления распределенной базы данных, не нарушающих целостность и согласованность данных. Эта цель достигается применением двухфазного протокола фиксации транзакций.

9.Независимость от оборудования. Это свойство означает, что в качестве узлов распределенной системы могут выступать компью­теры любых моделей и производителей.

10. Независимость от операционных систем. Это качество вытекает из предыдущего и означает многообразие операционных систем, управляющих узлами распределенной системы.

11. Прозрачность сети. Доступ к любым базам данных осуществляется по сети. Спектр поддерживаемых конкретной СУБД сетевых протоколов не должен быть ограничением системы, основан­ной на распределенной БД.

12. Независимость от СУБД. Это качество означает, что в распределенной системе могут работать СУБД различных производителей, и возможны операции поиска и обновления в базах данных различных моделей и форматов.
Выделились несколько самостоятельных технологий распределенной обработки данных:

* клиент-сервер;

* реплицирования;

* объектного связывания.

Можно выделить следующие идеи, лежащие в основе технологии клиент-сервер:

*общие для всех пользователей данные, расположенные на одном или нескольких серверах;

* множество пользователей, осуществляющих доступ к общим

данным.

Одним из важнейших преимуществ архитектуры клиент-сервер яв­ляется снижение сетевого трафика при выполнении запросов. Клиент посылает запрос серверу на выборку данных, запрос обрабатывается сервером, и клиенту передается не вся таблица (как было бы в техно­логии файл-сервер), а только результат обработки запроса.

Построение быстродействующих информационных систем обеспе­чивают технологии репликации данных.

Репликой называют копию БД, размещенную на другом компьюте­ре сети для автономной работы пользователей. Основная идея репликации заключается в том, что пользователи работают автономно с общими данными, растиражированными по локальным базам данных. Производительность работы системы повышается из-за отсутствия необходимости обмена данными по сети. Для реализации технологии репликации программное обеспечение СУБД дополняется функциями тиражирования данных, их структуры, системной информации, информации о конфигурировании распределенной системы.

Технология объектного связывания данных решает задачу обеспечения доступа из одной локальной БД, открытой одним пользователем, к данным другой локальной БД, возможно, находящейся на другом компьютере, открытой другим пользователем.
42. Понятие транзакции и параллельная обработка. OLTP, OLAP, Data Mining технологии.

Под транзакцией понимается неделимая с точки зрения воздействия на БД последовательность операторов манипулирования данными (чтения, удаления, вставки, модификации) такая, что либо результаты всех операторов, входящих в транзакцию, отображаются в БД, либо воздействие всех этих операторов полностью отсутствует. При

завершении транзакции оператором COMMIT результаты гарантированно фиксируются во внешней памяти; при завершении транзакции оператором ROLLBACK результаты гарантированно отсутствуют во внешней памяти.

Типы транзакций:

  • Неделимые транзакции - транзакции, в которых все действия выполняются до конца, либо ни одно из них не выполняется.

  • Прерванные транзакции - транзакции, приведшие к отказу до внесения изменений в базу данных.


OLTP (On-Line Transaction Processing) – системы оперативной обработки транзакций. OLTP-системы предназначены для ввода, структурированного хранения и обработки информации (операций, документов) в режиме реального времени.

Использование:

OLTP-приложениями охватывается широкий спектр задач во многих отраслях — автоматизированные банковские системы, банковские и биржевые операции, в промышленности — регистрация прохождения детали на конвейере, фиксация в статистике посещений очередного посетителя веб-сайта, автоматизация бухгалтерского, складского учёта и учёта документов и т. п. Приложения OLTP, как правило, автоматизируют структурированные, повторяющиеся задачи обработки данных, такие как ввод заказов и банковские транзакции. OLTP-системы проектируются, настраиваются и оптимизируются для выполнения максимального количества транзакций за короткие промежутки времени

OLAP (англ. online analytical processing, аналитическая обработка в реальном времени) — технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу.

Причина использования OLAP для обработки запросов — это скорость.

Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа.

Цель этого поиска — представить данные в виде, отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).

Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Еще несколько определений понятия Data Mining.

Data Mining – это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.

Data Mining – это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Data Mining – это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).

44. Базы знаний.

Развитие систем БД первоначально было мотивировано потребностью в эффективных средствах хранения, манипуляции и извлечения большого количества разнообразных данных. По достижению этих целей возникла дополнительная потребность: возможность задавать ИС правила, применяемые к хранимым фактам (данным), позволяющие выводить из них другие факты. Включение знаний в систему БД было подсказано исследованиями в области искусственного интеллекта (ИИ), которая занимается вопросом о том, как запрограммировать разумное поведение. Разработки в области ИИ включали исследования представлений логических правил, применяемых к данным.

Экспертные системы — это особый раздел ИИ, посвященные представлению правил и процедур, которым следует специалист, решая задачи в конкретной предметной области.

Экспертные системы — системы, моделирующие процесс принятия решений специалистами в разных предметных областях. Однако Экспертные системы не являются базами знаний, т.к. не обеспечивают полные возможности управления данными, присущие СУБД. Например, язык экспертных систем — язык ПРОЛОГ. Является мостом

между БД и базами знаний. Он основан на исчислении предикатов, которые могут рассматриваться как реляционные таблицы, в нем также есть возможность выражения логики, которой пользуется человек, преобразуя факты из БД в информацию, помогающую принимать решения. Однако этот язык не обеспечивает необходимый набор

возможностей СУБД —обработка транзакций, резервное копирование и восстановление, управление вспомогательными ЗУ. DATA-LOG и Logical Data Language (LDL, логический язык данных), расширенные версии ПРОЛОГа, призванные решить эти проблемы, находятся в стадии разработки.

Система управления базами знаний. Система, обладающая всеми стандартными возможностями системы управления базой данных, касающихся хранения данных и манипуляций ими, а также средствами создания правил вывода, их хранения и применения к хранимым таблицам данных.

Основанная на знаниях система. Альтернативный термин для системы управления базой знаний. Система базы знаний (СБЗ) — это компьютерная система, имеющая следующие составляющие:

1. БД, содержащая основные факты.

2. БД, содержащая правила, которые позволяют делать выводы из БД

фактов.

3. Программное обеспечение, называемое системой управления базой

знаний(СУБД), которое поддерживает обычные функции СУБД, а также управление процессом вывода а БД правил, оперирующих базой данных фактов. Наиболее активно развивающиеся области СБЗ: создание высокоскоростного оборудования, на котором выполняются операции с правилами; методы автоматического поддержания смысловой целостности баз знаний, в которых применяются правила, основанные на формальной логике, совершенствование способов применения логики к рассуждениям о знаниях, содержащих неопределенности, предположения и время.

Примеры:

Факт, хранящийся в БД фактов

Поставщик Иванов находится в Томске

Информация более высокого уровня:

Поставщик Иванов надежен

Второе основано на выводах, полученных на основе разных данных-

фактов (сопоставление дат закупок и дат поставок, и т.д.).
45. Хранилища данных. Базы данных большого объема.

Хранилище данных (англ. Data Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы транзакционной системы и не нарушал её стабильность. Как правило, данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных может несколько отставать от OLTP-системы.

Принципы организации хранилища:

  1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

  2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

  3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.

  4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Существуют два архитектурных направления – нормализованные хранилища данных и хранилища с измерениями.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ – большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы.

Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (Таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример – факты продаж и поставок товара). Таблицы данных и соответствующие измерениями образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основным достоинством хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.
Сверхбольшая база данных (англ. Very Large Database, VLDB) — это база данных, которая занимает чрезвычайно большой объём на устройстве физического хранения. Термин подразумевает максимально возможные объёмы БД, которые определяются последними достижениями в технологиях физического хранения данных и в технологиях программного оперирования данными.
46. Развитие и классификация однопроцессорных архитектур компьютеров.

Исторически первыми появились однопроцессорные архитектуры. Классическим примером однопроцессорной архитектуры является архитектура фон Неймана со строго последовательным выполнением команд: процессор по очереди выбирает команды программы и также по очереди обрабатывает данные. По мере развития вычислительной техники архитектура фон Неймана обогатилась сначала конвейером команд (рис. 1.2), а затем многофункциональной обработкой и по классификации М. Флина получила обобщенное название SISD (Single Instruction Single Data — один поток команд, один поток данных).



Рис..1.2. Развитие и классификация однопроцессорных архитектур

Архитектуры класса SISD охватывают те уровни программного параллелизма, которые связаны с одинарным потоком данных.

Параллелизм циклов и итераций тесно связан с понятием множественности потоков данных и реализуется векторной обработкой. В классификации компьютерных архитектур М. Флина выделена специальная группа однопроцессорных систем с параллельной обработкой потоков данных – SIMD (Single Instruction Multiple Data, один поток команд – множество потоков данных).

Ведущие поставщики микропроцессоров ищут пути повышения их производительности за счет многопотоковой обработки информации на нескольких внутренних ядрах процессора. Ярким примером является технология Hyper-Threading (HT), разработанная фирмой Intel, и позволяющая на одном физическом процессоре создавать два логических процессора, на которых могут выполняться параллельно два программных потока (threads), использующих в один и тот же момент времени разные блоки процессора.

47. Конвейерная обработка команд.

В работе процессора можно выделить несколько основных стандартных фаз работы:

  1. Выборка команды (ВК)

  2. Вычисление адреса и выборка операнда (ВО)

  3. Выполнение команды и запись результатов(АО)

  4. Обработка прерываний

  5. Изменение состояний процессора и системы в целом

1.ВК ( ) в этой фазе осуществляется передача содержимого счетчика команд в регистр адреса памяти, считывание команды из памяти в регистр команд, модификация содержимого счетчика команд для выборки следующей команды.

2.ВО ( ) выполняется вычисление адреса и обращение к памяти, считывание из памяти операндов и запись их в какие-то регистры.

3.АО ( ) инициализация кодом операции (дешифрация операции) цикла работы устройства управления. Этим управляющим сигналом выполняются операции в АЛУ. Результат операции записывается в регистр или ОП.

Эти операции выполняются последовательно (последовательная обработка команд) по Фон-Нейману.

n команды

n+1

1 2 3 4 5 6 такты

За 6 тактов выполняется две команды, неэффективно используется процессор, произв-сть и загрузка низкая.

Трудности реализации:

  1. конвейер приостанавливает свою работу при выборке любой команды условного перехода

  2. конвейер может совмещать работу нескольких команд, если эти команды не взаимозависимы между собой (результат одной команды не используется другой).

Ставят блоки прогнозирования ветвления предназначенные для того, чтобы выбрать с наибольшей вероятностью по какой ветви дальше пойдет программа.

Совмещение обработки (конвейер команд) объем оборудования и усложняет схему управления. Это увеличение и усложнение возрастает с увеличением числа уровней совмещений, поэтому в каждом конкретном случае необходимо выбирать число уровней совмещений, для получения заданных параметров. Основным параметром является отношение производительности к стоимости. Опыт показал, что технически и экономически целесообразна переработка 5-6 команд.

48. Cуперскалярная обработка команд.

Еще одной разновидностью однопотоковой архитектуры является суперскалярная обработка.

Смысл этого термина заключается в том, что в аппаратуру процессора закладываются средства, позволяющие одновременно выполнять две или бо-лее скалярные операции, то есть команды обработки пары чисел. Суперскалярная архитектура базируется на многофункциональном параллелизме и позволяет увеличить производительность компьютера пропорционально числу одновременно выполняемых операций. Способы реализации супер-скалярной обработки могут быть разными.

Первый способ применяется как в CISC, так и в RISC — процессорах и заключается в чисто аппаратном механизме выборки из буфера инструкций (или кэша инструкций) несвязанных команд и параллельном запуске их на исполнение.

Этот метод хорош тем, что он «прозрачен» для программиста — состав-ление программ для подобных процессоров не требует никаких специальных усилий, ответственность за параллельное выполнение операций возлагается в основном на аппаратные средства.

Второй способ реализации суперскалярной обработки заключается в кардинальной перестройке всего процесса трансляции и исполнения про-грамм. Уже на этапе подготовки программы компилятор группирует несвя-занные операции в пакеты, содержимое которых строго соответствует струк-туре процессора.

Например, если процессор содержит функционально независимые устройства (сложения, умножения, сдвига и деления), то максимум, что ком-пилятор может «уложить» в один пакет — это четыре разнотипные операции: (сложение, умножение, сдвига и деления). Сформированные пакеты операций преобразуются компилятором в командные слова, которые по сравнению с обычными инструкциями выглядят очень большими. Отсюда и название этих суперкоманд и соответствующей им архитектуры — VLIW (very large Instruction Word — очень широкое командное слово). По идее, затраты на формирование суперкоманд должны окупаться скоростью их выполнения и простотой аппаратуры процессора, с которого снята вся «интеллектуальная» работа по поиску параллелизма несвязанных операций. Однако практическое внедрение VLIW — архитектуры затрудняется значительными проблемами эффективной компиляции.

страница 1


скачать

Другие похожие работы:


Документы

архив: 1 стр.



Создание таблиц баз данных

Лабораторная работа: 1 стр.