Чим відрізняються великі дані, великий набір даних, потік даних та потокові дані?


Відповідь 1:
  • "Великі дані" - це бізнес-словник, який використовується для позначення додатків і контекстів, які створюють або споживають великі набори даних. Добре визначення "великого набору даних" таке: якщо ви намагаєтеся наївно обробити невеликий набір даних, він все одно буде працювати . Якщо ви спробуєте наївно обробити великий набір даних, це займе наказів більше, ніж допустимих (і, можливо, також вичерпає ваші обчислювальні ресурси). Наприклад, одне з основних понять "великих даних" відоме як MapReduce - модель паралельного програмування, де ви розділите набір даних на менші шматки, а потім отримаєте окремі робочі місця / "робітники", які обробляють ваші дані, а потім встановлюють їх назад. разом. Якщо вам потрібно зробити це для того, щоб ваша програма запустилася у прийнятні терміни, у вас є великий набір даних. Якщо через один набір даних у розумний час може отримати лише одну монолітну роботу, вона не така вже й велика. Визначення того, що таке "розумний" чи "прийнятний" час, таким чином, залежить від вимог вашої програми. "Потокові дані" - це дані, які постійно надходять, навіть коли ви їх обробляєте - протилежний "легшому" підходу, коли спочатку ви чекаєте поки у вас є весь набір даних (скажімо, що зберігається всередині файлу чи бази даних), і ви не обробляєте його. "Потік даних" - це абстракція для такого безперервно потоку даних. Наприклад, скажімо, ви стежите за телефонними дзвінками, і ви створили нейронну мережу для ідентифікації кожного разу, коли хтось сказав слово "Аль-Каїда". Одне з них - запустити цю програму для аналітики через купу заздалегідь записаних дзвінків, і зовсім інша річ - підключити її до "потоку даних" усіх дзвінків, які зараз відбуваються. Останній підхід зможе сповістити вас у режимі реального часу, як хтось скаже магічне слово (скажімо, так що ви можете почати слухати в розмові), але він набагато більше схильний до таких проблем, як: що робити, якщо слова приходять через розділені в два шматки? Що робити, якщо дані надходять швидше, ніж я можу їх обробити? І т.д.

Відповідь 2:

Привіт,

Ось моє розуміння.

Big Data - це велика кількість структурованих, неструктурованих та напівструктурованих даних, що є вихідним кодом цифрового бізнесу. Великі дані дуже великі за обсягом, мають високу швидкість та різні типи.

Великий набір даних - це може бути набір даних, який знаходиться на керованому рівні для їх обробки. У великому середовищі даних, коли ми говоримо, великий набір даних, він відноситься до складного набору структурованих і неструктурованих даних. Традиційні програми не є адекватними для обробки таких наборів даних.

Потокова передача даних - це передача даних з дуже високою швидкістю, але стабільно. У великих даних ми посилаємо потокове передавання даних на процес, в якому неструктуровані дані в режимі реального часу мають бути оброблені. Найкращий приклад тут - обробка відео та фотографій у сценаріях реального часу.

Будь-які коментарі, ласкаво просимо.