To zupełnie niespodziewane i nieoczekiwane. A do tego zaskakujące – to, kto mówi o znaczeniu danych w dzisiejszym świecie:
https://www.ted.com/talks/bono_the_good_news_on_poverty_yes_there_s_good_news.html.
I to fajne jest zarazem. Bono mówiący o bazach danych - po pierwsze: ciekawe (kontekst, w którym to mówi, dziedziny życia, w których gromadzenie i analizowanie danych okazuje się istotne). Po drugie – nie muszę już uciekać, gdy usłyszę pytanie
‘czym się zajmujesz?’ (zajmować się bazami danych – no trochę brakuje do perkusisty zespołu rockowego jeszcze, ale to już tylko półtora metra, a było 20 metrów co najmniej). (Tak sobie można wmówić przynajmniej; BTW: Data Scientist:
The Sexiest Job of the 21st Century - http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1).
Temat jest ważny, bo gromadzonych danych jest tyle, że jeszcze tyle nie gromadziliśmy. (A dodatkowo, za 2 lata, ktoś powie pewnie – to nieprawda, no bo przecież dopiero teraz gromadzimy tyle danych, że jeszcze tyle nie gromadziliśmy. Ale OK, to nas
utwierdzi w przekonaniu, że będzie się działo w tych danych, i ta nasza profesja ma przyszłość…) Więc jak nie zmarnować tych danych? Jak wydobyć z nich coś najbardziej wartościowego? Jak zwiększyć naszą efektywność czy produktywność? Zrobić ten dodatkowy krok, wejść na wyższy poziom?
Poniżej próba skompilowania, przeglądu wybranych zastosowań i trendów w dziedzinie systemów zarządzania bazami danych, oraz istotnych – w tym kontekście - nowych narzędzi (Microsoft). (Nie ma tutaj instrukcji obsługi, jest natomiast próba zainteresowania interesującym tematem.)
Zastosowania
Dane zmieniają nasze życie – czasami w zupełnie nieprzewidywalny sposób, a te wszystkie możliwe zastosowanie pewnie trudno sobie wyobrazić jeszcze. To, o czym wspomniał Bono - więcej danych, większe upublicznienie danych, łatwiejszy
dostęp do danych - to większa przejrzystość instytucji, urzędów, organizacji (użyty przez niego termin ‘factivist’).
Miejsca na kreatywność w wykorzystywaniu, wyszukiwaniu, korelowaniu danych, szukaniu zastosowań – jest coraz więcej. Gromadzenie danych na obecną skalę niesie ze sobą wiele wyzwań (narzędzia, które muszą ciągle ewoluować, nasze
umiejętności), pewnych zagrożeń – ale też niesamowite możliwości, potencjał dotyczący poprawy wielu aspektów naszego życia. Przykłady:
- elektroenergetyka: także w Polsce instalowane są już ‘inteligentne’ liczniki pozwalające na monitorowanie i częste pomiary zużycia energii elektrycznej; na podstawie tych danych można lepiej prognozować i zwiększać efektywność zużycia energii (zwłaszcza w połączeniu z ‘inteligentnymi’ urządzeniami, które mogą dostosowywać zużycie do zmiennych cen i kosztów wytwarzania energii elektrycznej) (Smart Power - http://business.time.com/2013/03/28/smart-power/);
- medycyna: informacje o pacjentach, ich stylu życia, diecie, które gromadzone są w bazach danych – te dane powinny ułatwiać weryfikowanie skuteczności terapii, analizowanie korelacji między czynnikami środowiskowymi, stylem życia czy stosowanymi lekami a stanem zdrowia… (How big data will save your life – http://www.computerworld.com/s/article/9238593/How_big_data_will_save_your_life?taxonomyId=221&pageNumber=1);
- telekomunikacja: wykorzystanie danych generowanych przez użytkowników telefonów komórkowych do celów takich, jak walka z malarią (Big Data from Cheap Phones - http://www.technologyreview.com/featuredstory/513721/big-data-from-cheap-phones/);
- ….. (tu miejsce na nasze dane, na naszą historię, która się wyłoni z tych danych potencjalnie).
Trendy
Skala, ilość gromadzonych danych, nowe zastosowania – wymuszają zmiany w podejściu do przetwarzania, analizowania danych. Poniżej wybrane zagadnienia oraz – w nawiasie – przykłady technologii i narzędzi rozwijanych obecnie przez
Microsoft:
- Big Data (HDinsight);
- In-Memory Databases (Hekaton);
- Self-Service BI (Excel 2013 plus PowerPivot, PowerView, Data Explorer, GeoFlow);
- Chmura (Windows Azure).
Pojęcie ‘samoobsługi’ (Self-service) odnosi się do BI dzisiaj często; ale można pójść jeszcze dalej tutaj jak widać.
Dla zainteresowanych trendami i pomysłami realizowanymi przez grupę rozwijającą SQL Server - tona informacji na stronie: SQL Server Blog - http://blogs.technet.com/b/dataplatforminsider/.
Nowe Narzędzia i Technologie (Przykłady)
Ponieważ nie żyjemy w idealnie uporządkowanym świecie, nie istnieje idealnie uporządkowane podejście, jedno narzędzie do analizowania danych (ustrukturyzowanych, nieustrukturyzowanych). Jest wiele narzędzi. I jest postęp, ponieważ możliwości
wymiany danych między tymi narzędziami i technologiami są coraz większe. Poniżej bardzo krótkie przedstawienie (zasygnalizowanie) dwóch wybranych technologii/narzędzi:
- ułatwiającego samodzielną ‘eksplorację’, analizę danych Data Explorera (skala, zastosowanie: klient, Information Worker);
- ułatwiającego analizę dużych ilości danych HDInsight (skala, zastosowanie: serwer, a właściwie wiele serwerów, Big Data).
Data Explorer
Data Explorer jest narzędziem (dodatkiem do Excela) ułatwiającym analizowanie, korelowanie danych pochodzących z różnych źródeł, w tym między innymi danych relacyjnych, ustrukturyzowanych, nie w pełni ustrukturyzowanych, Hadoop (i HDinsight), Azure Marketplace, a nawet danych udostępnianych na stronach internetowych typu Wikipedia.
HDinsight
Big Data to powszechnie stosowany termin odnoszący się do zbiorów danych, których analizowanie i przetwarzanie za pomocą tradycyjnych metod (np. pojedynczych serwerów) staje się niewykonalne. To dane generowane przez Facebook, Twitter czy
systemy wykorzystywane przez firmy telekomunikacyjne. Opracowany został zestaw algorytmów, języków, technik, które pozwalają na efektywne przetwarzanie dużych ilości danych, za pomocą wielu serwerów działających w ramach klastrów, na przykład: Map Reduce, Hadoop czy - charakteryzujący się uroczą nazwą - język PIG.
Implementacja Hadoop opracowana i oferowana przez Microsoft to HDInsight. Przy czym istnieją 2 opcje korzystania z tej technologii:
- Azure HDInsight – pozwalający na wykorzystanie ogromnych zasobów centrów danych Microsoft i systemu Azure (oraz, dodatkowo – istniejących tam zbiorów danych udostępnianych poprzez Windows Azure Marketplace, na przykład danych meteorologicznych);
- HDInsight działający jako usługa w systemie Windows Server 2012 (a więc lokalnie).
Ponieważ wymienione technologie i podejścia są ze sobą coraz bardziej ‘kompatybilne’, możemy je stosować w połączeniu – na przykład eksplorować dane udostępniane w HDInsight za pomocą Data Explorera, analizować je za pomocą PowerPivot, czy ładować takie dane do SQL Servera oraz Analysis Services (‘Any Data, Any Size, Anywhere’).
Podsumowanie
Ilość gromadzonych danych oraz nowe technologie, udostępniane narzędzia do analizowania tych danych, otwierają przed nami niemożliwe wcześniej możliwości. Dane + kreatywność + wyobraźnia = innowacyjność. Równa się wartość dodana (choć wiem, że to kontrowersyjne podejście do równań matematycznych – ale matura już za mną na szczęście). No i skoro Bono mówi o tym nawet – to musi być duża sprawa. I dużo danych. Może warto to wykorzystać?
Więcej Danych:
Server & Tools Blogs - http://blogs.technet.com/b/serverandtools/
SQL Server Blog - http://blogs.technet.com/b/dataplatforminsider/
Windows Azure - www.windowsazure.com
Windows Azure HDInsight - https://www.hadooponazure.com/
Microsoft HDInsight (Big Data) Solution - http://social.technet.microsoft.com/wiki/contents/articles/9396.microsoft-hdinsight-big-data-solution.aspx
Data Explorer - http://blogs.msdn.com/b/dataexplorer/
Microsoft “Data Explorer” Preview for Excel Help - http://office.microsoft.com/en-us/excel-help/start-page-HA104003813.aspx
Hekaton Breaks Through - http://research.microsoft.com/en-us/news/features/hekaton-122012.aspx
Analysis Services & PowerPivot Blog - http://blogs.msdn.com/b/analysisservices/
SQL Server Reporting Services Team Blog - http://blogs.msdn.com/b/sqlrsteamblog/archive/2011/11/17/what-s-new-in-power-view.aspx
Dallas Utilities: Electricity seasonal use simulation using project codename “GeoFlow” Preview and Power View - http://blogs.office.com/b/microsoft-excel/archive/2013/04/11/dallas-utilities-electricity-seasonal-use-simulation-with-geoflow-preview-and-powerview.aspx
Microsoft Business Intelligence - http://www.microsoft.com/en-us/bi/default.aspx
Microsoft Business Intelligence at a Glance Poster - http://www.microsoft.com/en-us/download/details.aspx?id=35586