Qu'est-ce que Big Data?


Bienvenue dans le monde du Big Data !!! De nos jours, le mot «Big Data» est devenu un mot à la mode dans l'Internet et partout dans les TI sector.In cet article je vais couvrir le sujet suivant.

1) Quelles sont les données?




2) ce est Big Data?

3) Quelle est la façon traditionnelle de stocker et récupérer des données?

4) Pourquoi Big Data?


Que sont les données?

Les données sont des éléments d'information discrets, généralement formatés si spécial. Tout logiciel est divisé en deux catégories générales: les données et programmes. Les programmes sont des collections d'instructions pour manipuler les données.

Les données peuvent exister sous différentes formes - telles que des numéros ou du texte, tels que l'image ou la vidéo, etc.

En général, ces données sont gérables et est facile à stocker et à récupérer à partir des bases de données.


Qu'est-ce que Big Data?

Big Data est un ensemble de données qui ne peut être traitée, ou (dans certains cas) stockée en utilisant les ressources d'une seule machine pour répondre aux accords de niveau de service requis (SLA). La dernière partie de cette définition est cruciale. Il est possible de traiter ne importe quelle échelle de données sur une seule machine. Même les données qui ne peuvent être stockées sur une seule machine peut être effectuée sur une machine avec une lecture en utilisant comme stockage réseau de stockage partagé (NAS). Cependant, la quantité de temps nécessaire pour traiter ces données serait trop grande par rapport au temps disponible pour traiter les données.

En général, Big Data est rien de spécial par rapport aux données communes, mais la seule exception, ce est qu'il est difficile à stocker, récupérer et processus.

Quelles façon istraditional pour stocker et récupérer les données?

Avant Big données de données de concept est stocké dans les bases de données comme Oracle, MySQL, etc., de manière la ligne et de la colonne. Même avant ce type de bases de données relationnelles, les données sont stockées sous forme de fichiers de texte brut, ce qui est très difficile à traiter et gérer les données sans redondance.

Pourquoi Big Data?

Prenons un exemple simple. Si la taille moyenne du travail développé par une unité d'affaires est de 200 Go, supposons que nous pouvons lire environ 50 Mo par seconde. Compte tenu de l'hypothèse de 50 Mo par seconde, nous avons besoin de deux secondes pour lire 100 Mo de données à partir de la séquence du disque, et il faudra environ 1 heure pour lire la totalité de 200 Go de données. Maintenant, imaginez que ces données doivent être traitées en moins de 5 minutes. Si le 200 Go requis par emploi pourrait être répartie uniformément à 100 nœuds, et chaque noeud peut traiter leurs données (considérer un cas d'utilisation simplifiée en sélectionnant simplement un sous-ensemble des données basées sur un critère simple : SALES_YEAR> 2001), reflétant le temps requis pour exécuter le traitement du processeur et assembler les résultats de 100 nœuds, le traitement total peut être complété en moins de 1 minute.

Donc, ce est la raison pour laquelle l'industrie se dirige vers manière traditionnelle de traitement de données dans les données parallèles de traitement Big.


Merci. Mon prochain article sur la façon de démarrer avec Hadoop cadre de travail.

(0)
(0)

Commentaires - 0

Sans commentaires

Ajouter un commentaire

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Caractères restants: 3000
captcha