Folien mit Notizen
Transcrição
Folien mit Notizen
Einführung: WAS IST INTERNET? Internet of Everything, Infrastruktur und Anwendungen, Wireline und Mobile, Surface Web, Deep Web, Darknet Peter Heinzmann Techn. Direktor cnlab ag und Professor für Computernetze und Informationssicherheit HSR Hochschule für Technik Rapperswil, Dipl. El. Ing. ETH, Promotion ETH (Dr. Sc. Techn.) „Fiber Optics and Local Area Networking“, Forschung bei IBM Research “High Speed Networking”. Arbeitsbereiche: Internet Qualitätsparameter, Performance Benchmarking, Crowd Sourcing. Im Rahmen dieser Einführung soll gezeigt werden, was so alles unter «Internet» verstanden wird. Erst nach der Diskussion dieser Grundlagen kann man sich über den «Rand des Internets» unterhalten. Unter «mehrdimensionaler» Vernetzung ist die Vernetzung verschiedenster Dinge gemeint: • Vernetzung von Computern (Computernetze) • Vernetzung von Informationen (Hypertext) • Vernetzung von Personen (Soziale Netze) Das Internet ist ein Netz von Netzen. Die einzelnen Teilnetze - auch Domains genannt – erhalten einen weltweit eindeutigen Namen (z.B. hsr.ch). Die Datenübertragung im Internet erfolgt „paketweise“ - man spricht von „Paketvermittlung“. Jedes Datenpaket enthält die Internet Protocol (IP) Adresse der Destination und des Absenders, d.h. jeder direkt via Internet ansprechbare Rechner besitzt eine (weltweit) eindeutige IP-Adresse. Die eigene IP-Adresse kann man sich beispielsweise im DOS-Fenster mit dem Befehl ipconfig anzeigen lassen. Die IP-Adresse, unter welcher man vom Internet her bekannt ist, kann anders lauten. Beispielsweise über www.whatismyip.com kann man sich diese „externe“ Adresse anzeigen lassen. Die IP-Adressen sind strukturiert aufgebaut: Ein Teil der IP-Adresse (z.B. 195.65.129.0) bezeichnet das Teilnetz, der andere Teil bzw. die gesamte Adresse identifiziert einen bestimmten Rechner im entsprechenden Teilnetz (z.B. 195.65.129.44). Einen Rechner kann man anstatt über die IP-Adresse (z.B. 199.249.19.231) auch über den Domain-Namen (z.B. www.mci.com) ansprechen. Die Zuordnung von Domain-Namen zu IP-Adresse erfolgt über das „Domain Name System (DNS)“. Informationen zur DomainNamen-Zuordnung und zu den Inhabern von .ch-Domains findet man bei www.switch.ch. Den Weg eines Datenpakets kann man sich im DOS-Fenster mit dem Befehl tracert anzeigen lassen. Bei http://www.dnstools.ch/visual-traceroute.html wird der Weg der Datenpakete beispielsweise von einem Server in Deutschland zu einem frei wählbaren anderen Rechner auf einer geographischen Karte angezeigt. Andere geographische Traceroute Anbieter sind http://www.yougetsignal.com/tools/visual-tracert http://www.dnstools.ch/visual-traceroute.html http://www.visualroute.com (Clientprogramm) The terms packet, datagram, segment and message are used to describe logical information groupings at various layers of the OSI reference model. In principle the terms frame, packet, datagram and protocol data unit (PDU) are not synonymous and therefore are not interchangeable. However, they are often used synonymously. •A message is the unit of end-to-end transmission at the application layer. But it is also used as a description for data at any „upper link“ layer. •A segment is the unit of end-to-end transmission in the TCP protocol. A segment consists of a TCP header followed by application data. A segment is transmitted by encapsulation inside an IP datagram. •A packet (alternatively, datagram - the terms are basically synonymous) is the unit of data passed across the interface between the internet layer and the link layer. It includes an IP header and data. A packet may be a complete IP datagram or a fragment of an IP datagram. A datagram is a self-contained packet, one which contains enough information in the header to allow the network to forward it to the destination independently of previous or future datagrams. An IP datagram is the unit of end-to-end transmission in the IP protocol. An IP datagram consists of an IP header followed by transport layer data, i.e., of an IP header followed by a message. •A frame is the unit of transmission in a link layer protocol, and consists of a link-layer header followed by a packet. The term frame is most frequently used to describe a chunk of data created by network communication hardware at the datalink/physical layer. The frame consists of the data bits surrounded by a flag at each end that indicates the beginning and end of the frame. Frames are OSI layer 2 protocol data units. Engl. Peer = Dt. der Ebenbürtige, der Gleichgestellte Application, Higher Layers, Anwendungsschicht: Die Anwendungsschicht (engl.: Application Layer) umfasst alle Protokolle, die mit Anwendungsprogrammen zusammenarbeiten und die Netzwerkinfrastruktur für den Austausch anwendungsspezifischer Daten nutzen. Transport, Transportschicht: Die Transportschicht (engl.: Transport Layer) ermöglicht eine Ende-zuEnde-Kommunikation. Das wichtigste Protokoll dieser Schicht ist das Transmission Control Protocol (TCP), das Verbindungen zwischen jeweils zwei Netzwerkteilnehmern zum zuverlässigen Versenden von Datenströmen herstellt. Es gehören aber auch unzuverlässige Protokolle – zum Beispiel das User Datagram Protocol (UDP) – in diese Schicht. Network, Internetschicht: Die Internetschicht (engl.: Internet Layer) ist für die Weitervermittlung von Paketen und die Wegewahl (Routing) zuständig. Auf dieser Schicht und den darunterliegenden Schichten werden Direktverbindungen betrachtet. Die Aufgabe dieser Schicht ist es, zu einem empfangenen Paket das nächste Zwischenziel zu ermitteln und das Paket dorthin weiterzuleiten. Kern dieser Schicht ist das Internet Protocol (IP) in der Version 4 oder 6, das einen Paketauslieferungsdienst bereitstellt. Sogenannte Dual-Stacks können dabei automatisch erkennen, ob sie einen Kommunikationspartner über IPv6 oder IPv4 erreichen können und nutzen vorzugsweise IPv6. Dies ist für entsprechend programmierte Anwendungen transparent. Die Internetschicht entspricht der Vermittlungsschicht des ISO/OSI-Referenzmodells. Link, Netzzugangsschicht: Die Netzzugangsschicht (engl.: Link Layer) ist im TCP/IP-Referenzmodell spezifiziert, enthält jedoch keine Protokolle der TCP/IP-Familie. Sie ist vielmehr als Platzhalter für verschiedene Techniken zur Datenübertragung von Punkt zu Punkt zu verstehen. Die InternetProtokolle wurden mit dem Ziel entwickelt, verschiedene Subnetze zusammenzuschließen. Daher kann die Host-an-Netz-Schicht durch Protokolle wie Ethernet, FDDI, PPP (Punkt-zu-Punkt-Verbindung) oder 802.11 (WLAN) ausgefüllt werden. Die Netzzugangsschicht entspricht der Sicherungs- und Bitübertragungsschicht des ISO/OSI-Referenzmodells. https://de.wikipedia.org/wiki/Internetprotokollfamilie Mit dieser Internetbeschreibung trägt man der Tatsache Rechnung, dass unterschiedliche Leute unterschiedlich viele Geräte oder Informationen im Internet erreichen. Der Begriff “Beeinflussen” ist zwar etwas schwammig, aber wenn man auch an die Vernetzung von Personen denkt, dann wird klar, was unter “Beeinflussung” so alles verstanden werden könnte. 1968 wurden die Computer von fünf Universitäten miteinander vernetzt: UCLA, Stanford, UC Santa Barbara, the University of Utah und BBN. Da das Projekt von der Advanced Research Projects Agency (ARPA) des US Militärs gefördert wurde, wurde das Netzwerk Arpanet genannt. 1983 separierte das U.S. Defense Department denjenigen Teil des Arpanet, welcher Rechner mit vertraulichen Informationen enthielt in ein Netz genannt MILNET. MILNET wurde später in Defense Data Network (DDN) und schliesslich in Non-classified IP Router Network NIPRNET umbenannt. 1984 wurde der übrig gebliebene Teil des Arpanet in Internet umbenannt. Das Internet verband 1984 rund 1’000 hosts in Universitäten und Forschungszentren. 1990 begann mit der Abschaltung des Arpanet die kommerzielle Phase des Internets. Während 1993 das Internet lediglich 1 % der Informationsflüsse der weltweiten Telekommunikationsnetze ausmachte, war es 2000 bereits die Mehrheit des technischen Informationsaustausches (51 %). 2007 wurden bereits 97 % der weltweit ausgetauschten Bytes über das Internet übertragen. 2000: Mit Web 2.0 bezeichnete man das Aufkommen von Sites, welche Benutzern die interaktive Zusammenarbeit ermöglichen. Besuchende sind nicht bloss passive Informationsbetrachter sondern sie kreieren auch Information (Collaboration, User-Generated Content) und begannen Soziale Netze zu bilden. 2010: In vielen Bereichen wird das Internet häufiger via Smartphone als via Rechner genutzt. Mobile Anwendungen werden sogar durch Internet Anwendungen verdrängt (z.B. Mobile Chat mit Whatsapp, MySMS, PingChat, GroupMee, iMessage anstatt SMS). 2011/9: Facebook hat weltweit 800Mio Mitglieder http://de.statista.com/statistik/daten/studie/222135/umfrage/taeglich-aktive-facebook-nutzer-weltweit (erfordert mittlerweile Premium Account) 2013: Bereits 57% der erwachsenen Amerikaner nutzen ihr Smartphone auch für Internet. 21% der Mobiltelefonnutzer behaupten, das Mobiltelefon vorwiegend für Internet-Aktivitäten zu nutzen. http://www.pewinternet.org/Topics/Technology-and-Media/Mobile.aspx?typeFilter=5 Weiterführende Informationen: • Internet Systems Consortium (ISC) Domain Survey: http://www.isc.org/solutions/survey • Number of named hosts: https://www.isc.org/services/survey •Internet Usage & Population Statistics: http://www.internetworldstats.com/stats.htm • Internet Zeitgeschichte bis 2000: http://www.michaelkaul.de/geschichte/zakon/zakon.html https://de.wikipedia.org/wiki/Geschichte_des_Internets Während den ersten Jahren der Internetentwicklung konzentrierte man sich auf die Vernetzung von Computern. Die Netzwerkknoten waren Endrechner oder Vermittlungsrechner. Die Verbindungen zwischen den Knoten waren Kupferleitungen, Mikrowellenstrecken oder Glasfasern. Mittlerweile sind die Endrechner auch Smartphones und diverse Arten von Sensoren (Internet of Things). • The Map of the Internet App from Peer1 http://www.peer1.com/blog/2011/03/map-of-theinternet-2011 provides a stunning 3D visualization of the Internet and all of its autonomous systems worldwide, as well as how they are connected. This app brings to life what the Internet looks like – and how the various autonomous components interact to connect the world. This Map of the Internet app can be used as an educational tool that represents the Internet’s evolution from 1994 to present day, highlighting key moments, like the launch of Internet heavyweights Facebook and Google. Users can view Internet service providers (ISPs), Internet exchange points, universities and other organizations through two view options – Globe and Network. The app also allows users to generate a trace route between where they are located to a destination node, search for where popular companies and domains are, as well as identify their current location on the map. The app’s timeline is rooted in real data that uses timeline visualization to display 22,961 autonomous system nodes joined by 50,519 connections based on Internet topology from our partner in this project, CAIDA. There is also a projection on what the Internet will look like in 2020 by using an algorithm based on current data, as well as predictions for the growth of the hosting industry by various independent research agencies. (Video to the app from CNN, 2013 https://www.youtube.com/watch?v=1YdBsoh4lp8 , Report from TNW News, 2013 http://thenextweb.com/apps/2013/03/08/map-of-the-internet-this-mobile-app-visualizes-theinternet-in-3d ) • Bei der Internet History Library findet man eine Samlung mit verschiedensten Maps zum Internet http://www.internet-future.org/internet-global-maps.html . • The Internet Traffic Report monitors the flow of data around the world. It displays a value between zero and 100. Higher values indicate faster and more reliable connections. http://www.internettrafficreport.com • RevolverMaps is a collection of real-time visitor statistics widgets for websites or blogs http://www.revolvermaps.com Im Internet, dem Zusammenschluss verschiedenster Computernetz, unterscheidet man den Heimnetzbereich, Anschlussnetzbereich (Accessnet, Local Loop), Rückgratnetze (Backbone) und Weitverkehrsnetze. Die sogenannten Peering-Points sind die Netzübergänge zwischen verschiedenen Internet Service Anbietern (Internet Service Provider, ISP). Mit den Personal Accessnet Benchmarking (PAB) SpeedTest Programmen kann man die Datenraten und Antwortzeiten testen zwischen seinem eigenen Rechner und einem cnlab Referenzsystem, typischerweise installiert beim Internet Service Provider. Mit den Mobile Performance Benchmarking (MPB) Apps für Android und iPhone kann man Mobilnetz- und WLAN-Verbindungen testen. Die cnlab Internet Backbone Benchmarking (IBB) Probes testen rund um die Uhr Verbindungen zu über 200 über die ganze Welt verteilte Webserver. Mit dem cnlab SpeedTest https://www.cnlab.ch/de/performance/speedtest können die Leistungsparameter Download, Upload Datenrate und Antwortzeiten bei Verbindungen zu Referenzsystemen erfasst werden. Gegenwärtig ist die Leistung häufig durch Problem im lokalen WLAN beeinträchtigt. Um diese besser untersuchen zu können, bietet der cnlab SpeedTest eine Übersicht zu den Signalen des eigenen und der benachbarten WLAN an. Akamai publiziert in seinem «State of the Internet» Report regelmässig die in verschiedenen Ländern beobachteten Download Datenraten. Die Resultate von Akamai decken sich in der Regel mit denjenigen der cnlab Performance Benchmarking SpeedTests https://www.cnlab.ch/speedteststatistics . Im September 2015 beträgt die von knapp 100’000 Testern in der Schweiz gemessene durchschnittliche Download Datenrate etwa 60Mbit/s. In January 2009, a team of researchers in China studied Internet routing data in six-month intervals, from December 2001 to December 2006. Similar to the properties of Moore’s Law, their findings showed that the Internet doubles in size every 5.32 years. Using this figure in combination with the number of devices connected to the Internet in 2003 (500 million, as determined by Forrester Research), and the world population according to the U.S. Census Bureau, Cisco IBSG estimated the number of connected devices per person. Explosive growth of smartphones and tablet PCs brought the number of devices connected to the Internet to 12.5 billion in 2010, while the world’s human population increased to 6.8 billion, making the number of connected devices per person more than 1 (1.84 to be exact) for the first time in history. http://www.cisco.com/web/about/ac79/docs/innov/IoT_IBSG_0411FINAL.pdf Internet of Things (IoT) ist unter verschiedensten Bezeichnungen bekannt: Machine-toMachine (M2M), Industrial Internet, Internet of Everything, smart devices, … https://www.youtube.com/watch?v=wL34vK-On3o (2min29) «Tiny sensors that collect data automatically and transmit them to servers in the cloud to get deeper insight and realtime feedback to take decisions» Beispiele von Sensoren: • https://nest.com/thermostat/life-with-nest-thermostat/#meet-the-nest-learningthermostat Most people leave the house at one temperature and forget to change it. So the Nest Learning Thermostat learns your schedule, programs itself and can be controlled from your phone. Teach it well and the Nest Thermostat can lower your heating and cooling bills up to 20%. • The Quantified Self is an international collaboration of users and makers of self-tracking tools. http://quantifiedself.com/ • http://www.pbs.org/wgbh/nova/next/tech/wearable-health-sensors/ • http://www.forbes.com/sites/samsungbusiness/2015/01/29/turning-students-intoplayers-how-gamification-is-improving-education/ • https://www.netatmo.com/en-US/product/camera • Wired Car: http://www.wired.com/2015/07/hackers-remotely-kill-jeep-highway Andy Greenberg, 21.7.2015 Hackers remotely kill a jeep on the highway – with me in it I WAS DRIVING 70 mph on the edge of downtown St. Louis when the exploit began to take hold. Though I hadn’t touched the dashboard, the vents in the Jeep Cherokee started blasting cold air at the maximum setting, chilling the sweat on my back through the in-seat climate control system. Next the radio switched to the local hip hop station and began blaring Skee-lo at full volume. I spun the control knob left and hit the power button, to no avail. Then the windshield wipers turned on, and wiper fluid blurred the glass. As I tried to cope with all this, a picture of the two hackers performing these stunts appeared on the car’s digital display: Charlie Miller and Chris Valasek, wearing their trademark track suits. A nice touch, I thought. http://www.wired.com/2015/07/hackers-remotely-kill-jeep-highway/ Auf der technischen Netzinfrastruktur wird eine Informationsinfrastruktur mit Verweisen zwischen den Dokumenten (Hyperlinks) aufgebaut. The Indexed Web contains at least 4.79 billion pages (Monday, 07 September, 2015). http://www.worldwidewebsize.com/ A map of Websites http://internet-map.net is comprised of the top 350,000 websites from around the world, organized into groups based on country and genre. The more popular a site is, the larger its dot will be. Die Entwicklung des Web wird bei http://www.evolutionoftheweb.com sehr anschaulich gezeigt. The web today is a growing universe of interlinked web pages and web apps, teeming with videos, photos, and interactive content. What the average user doesn't see is the interplay of web technologies and browsers that makes all this possible. Over time web technologies have evolved to give web developers the ability to create new generations of useful and immersive web experiences. Today's web is a result of the ongoing efforts of an open web community that helps define these web technologies, like HTML5, CSS3 and WebGL and ensure that they're supported in all web browsers. The color bands in this visualization represent the interaction between web technologies and browsers, which brings to life the many powerful web apps that we use daily. (Made by people from the Google Chrome team: 2010 version by mgmt design and GOOD, 2011 & 2012 versions by Hyperakt and Vizzuality) Mit Web Analyse Werkzeugen oder Web Analyse Diensten (auch Web-Controlling, Web-Analyse, Datenverkehrsanalyse, Traffic-Analyse, Clickstream-Analyse, Webtracking) versucht man das Verhalten von Besuchern auf Websites zu ergründen. Ein Analytic-Tool untersucht typischerweise, woher die Besucher kommen, welche Bereiche auf einer Internetseite aufgesucht werden und wie oft und wie lange welche Unterseiten und Kategorien angesehen werden. Diese Analysen werden heutzutage häufig nicht durch den Betreiber der Webseite selbst, sondern über externe Dienstanbieter durchgeführt. Ein bekanntes Beispiel ist Google Analytics. Google Analytics ist aber bei weitem nicht der einzige Dienst dieser Art. Es gibt eine Vielzahl so genannter Web-Site-Tracker Dienste. Wer solche Dienste nutzen will, fügt auf seinen Webseiten hat kleine Verweise an, welche beim Aufruf der Webseite Verbindungen zum Tracking-Dienst eröffnen. Es gibt verschiedenste Browser Zusatzprogramme, welche für jede Seite anzeigen, welche TrackerDienste zum Einsatz kommen. Lightbeam Graph visualization for Firefox https://www.mozilla.org/en-US/lightbeam • circular nodes are websites you have visited • triangular nodes are third party sites. By default, data collected by Lightbeam remains in your browser and is not sent to Lightbeam. Weitere Informationen, Ähnliche Extensions: • http://www.netzwelt.de/download/16668-collusion.html • https://disconnect.me/ for Google Chrome (eine früher verfügbare Extension namens Collusion funktioniert auf Chrome nicht mehr) Im Rahmen der Performance Benchmarking Messungen erfasst cnlab auch Ladezeiten von Webseiten. Die Zeiten, bis eine Seite vollständig geladen ist hangen werden ab Download Datenraten von 20Mbit/s kaum mehr besser. Im Rahmen der Performance Benchmarking Messungen erfasst cnlab auch Ladezeiten von Webseiten. Die Zeiten, bis eine Seite vollständig geladen ist hangen sehr stark von den Round Trip Zeiten (RTT) vom Rechner zu den verschiedenen Webservern ab. Swisscom Responsiveness/RTT Map The Swisscom Responsiveness/RTT Map shows the actual Round-TripTime-Values to world-distributed reference servers. Backbone-Probes at different Internet Service Providers measures round the clock Round-TripTime to about 100 reference servers. The colors illustrate Swisscom-Values compared with other Internet Service Providers. Heutzutage gehört die Optimierung der Content Distribution Network Services zu den wichtigsten Aufgaben bei den Internet Service Providern. The Surface Web (also called the Visible Web, Clearnet, Indexed Web, Indexable Web or Lightnet, is that portion of the World Wide Web that is readily available to the general public and searchable with standard web search engines. It is the opposite of the Deep Web. https://en.wikipedia.org/wiki/Surface_Web How is the size of the World Wide Web (The Internet) estimated? http://www.worldwidewebsize.com The estimated minimal size of the indexed World Wide Web is based on the estimations of the numbers of pages indexed by Google, Bing, Yahoo Search. From the sum of these estimations, an estimated overlap between these search engines is subtracted. The overlap is an overestimation; hence, the total estimated size of the indexed World Wide Web is an underestimation. Since the overlap is subtracted in sequence, starting from one of the four search engines, several orderings (and total estimations) are possible. We present two total estimates, one starting with Bing (BG) and one starting with Google (GB). The figure reported at the top of the page refers to the GB estimation. The size of the index of a search engine is estimated on the basis of a method that combines word frequencies obtained in a large offline text collection (corpus), and search counts returned by the engines. Each day 50 words are sent to all four search engines. The number of webpages found for these words are recorded; with their relative frequencies in the background corpus, multiple extrapolated estimations are made of the size of the engine's index, which are subsequently averaged. The 50 words have been selected evenly across logarithmic frequency intervals (see Zipf's Law). The background corpus contains more than 1 million webpages from DMOZ, and can be considered a representative sample of the World Wide Web. DMOZ ist das umfangreichste von Menschen editierte Internet-Verzeichnis. Es wird von einer passionierten, globalen Gemeinschaft freiwilliger Editoren betreut. Früher war es auch als Open Directory Project (ODP) bekannt. http://www.dmoz.org/docs/de/about.html When you know, for example, that the word 'the' is present in 67,61% of all documents within the corpus, you can extrapolate the total size of the engine's index by the document count it reports for 'the'. If Google says that it found 'the' in 14.100.000.000 webpages, an estimated size of the Google's total index would be 23.633.010.000. The overlap between the indices of two search engines is estimated by daily overlap counts of URLs returned in the top-10 by the engines that were returned in a sufficiently large number of random word queries. The words were randomly drawn from the DMOZ background corpus. Eine Suchmaschine baut mit Hilfe eines so genannten Spiders (auch Crawler, Robot, Worm genannt) automatisiert einen Index auf. Der Index enthält die auf den verschiedensten Webseiten enthaltenen Zeichen (Worte) zusammen mit der Adresse der Webseite. Suchmaschinen wie Google, Yahoo, Lycos, Alta Vista oder Web Crawler durchsuchen über 10 Mio Web-Seiten pro Tag und unterhalten Datenbanken mit vielen 100 Millionen Web-Seiten. Mit Hilfe der eigentlichen Suchmaschinen-Software werden die von den Internet Nutzern und Nutzerinnen eingegebenen Worte mit den im Index abgelegten Zeichen (Worte) verglichen. Seiten, welche diese Worte enthalten werden als „Suchtrefferseiten“ aufgelistet. Die Reihenfolge (das Ranking) der gefundenen Seiten hängt von verschiedenen Kriterien ab. Die Ranking-Algorithmen bewerten beispielsweise Webseiten als wichtig, wenn die Suchbegriffe häufig und in wichtigen Teilen (z.B. in den Titeln) der Seiten zu finden sind. Google war eine der ersten Suchmaschinen, welche Seiten als besonders wichtig erachtete, wenn viele andere Web-Seiten auf diese Seiten verwiesen (referenzierten). Die Ende 1995 vorgestellte Suchmaschine AltaVista ging aus einem Forschungsprojekt der Digital Equipment Corporation (DEC) hervor. AltaVista war eine der ersten Suchmaschinen mit Volltextrecherche nach relevanten Seiten im Internet. AltaVista war bis ins Jahr 1999 die bekannteste Volltext-Suchmaschine neben HotBot. Der AltaVista Ranking-Algorithmus basierte auf den indexierten HTML-Begriffen und den Meta-Tags auf den HTML-Seiten. Yahoo wurde im Januar 1994 von David Filo und Jerry Yang gegründet. Im März 1995 ging Yahoo mit 46 Angestellten an die Börse. 2009 arbeiteten insgesamt rund 13.500 Mitarbeiter für Yahoo. Yahoo, dessen Dienste in 46 Sprachen verfügbar sind, war 2010 in 70 Ländern vertreten. Google entwickelte sich zum unbestrittenen Marktführer unter den Internet-Suchmaschinen. Nach dem Start unter dem Name BackRub 1996 folgte im September 1998 der Auftritt unter dem Namen Google. Durch den Erfolg der Suchmaschine in Kombination mit kontextsensitiver Werbung aus dem AdSenseProgramm konnte das Unternehmen Google Inc. eine Reihe weiterer Software-Lösungen finanzieren, die über die Google-Seite zu erreichen sind. Die Suche ist nach wie vor das Kern-Geschäftsfeld von Google. Zeitweise verwendete der Konkurrent Yahoo gegen Bezahlung die Datenbanken von Google für die eigene Suche. Im Juli 2008 gab Google an 1‘000 Gpages indexiert zu haben. Im November 2004 waren es nur 8.1 Gpages. Cuil behauptete im Juli 2008 120 Gpages indexiert zu haben. Es gibt hunderte, wenn nicht tausende von Suchmaschinen – auch wenn in Europa viele Leute nur Google kennen. Sehr gute Informationen zum Thema Suchmaschinen findet man bei searchenginewatch: http://searchenginewatch.com/reports/article.php/2156481#trend Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes Web bezeichnet den Teil des World Wide Webs, der bei Recherchen über normale Suchmaschinen nicht auffindbar ist. de.wikipedia.org/wiki/Deep_Web Nach Sherman & Price (2001) werden fünf Typen des Invisible Web unterschieden: „Opaque Web“ (undurchsichtiges Web), „Private Web“ (privates Web), „Proprietary Web“ (Eigentümer-Web), „Invisible Web“ (unsichtbares Web) und „Truly invisible Web“ (tatsächlich unsichtbares Web). Das Opaque Web (engl. opaque zu dt.: undurchsichtig) sind Webseiten, die indexiert werden könnten, zurzeit aber aus Gründen der technischen Leistungsfähigkeit oder Aufwand-Nutzen-Relation nicht indexiert werden (Suchtiefe, Besuchsfrequenz). Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten einer Website. Beim Erfassen von Webseiten steuern Webcrawler über Links zu den folgenden Webseiten. Webcrawler selbst können nicht navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und wegen der beschränkten Erschließungstiefe von Suchmaschinen nicht gefunden werden. Dazu kommen Dateiformate, die nur teilweise erfasst werden können (zum Beispiel PDF-Dateien, Das Private Web beschreibt Webseiten, die indexiert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indexiert werden. Dies können Webseiten im Intranet (interne Webseiten) sein, aber auch passwortgeschützte Daten (Registrierung und evtl. Passwort und Login), Zugang nur für bestimmte IP-Adressen, Schutz vor einer Indexierung durch den Robots Exclusion Standard oder Schutz vor einer Indexierung durch die Meta-TagWerte noindex, nofollow und noimageindexim Quelltext der Webseite. Mit Proprietary Web sind Webseiten gemeint, die indexiert werden könnten, allerdings nur nach Anerkennung einer Nutzungsbedingung oder durch die Eingabe eines Passwortes zugänglich sind (kostenlos oder kostenpflichtig). Derartige Webseiten sind üblicherweise erst nach einer Identifizierung (webbasierte Fachdatenbanken) abrufbar. Unter das Invisible Web fallen Webseiten, die rein technisch gesehen indexiert werden könnten, jedoch aus kaufmännischen oder strategischen Gründen nicht indexiert werden – wie zum Beispiel Datenbanken mit einem Webformular. Jamie Bartlett, How the mysterious dark net is going mainstream, TEDGlobalLondon, Jun 2015, 13min57s https://www.ted.com/talks/jamie_bartlett_how_the_mysterious_dark_net_is_going_main stream There are now between two and three million daily users of the Tor browser, the majority of which use is perfectly legitimate, sometimes even mundane. The dark net is no longer a den for dealers and a hideout for whistle-blowers. It's already going mainstream. Facebook has started a darknet side. Since the revelations from Edward Snowden, there's been a huge increase in the number of people using various privacy-enhancing tools. There are now between two and three million daily users of the Tor browser, the majority of which use is perfectly legitimate, sometimes even mundane. And there are hundreds of activists around the world working on techniques and tools to keep you private online -- default encrypted messaging services. Ethereum, which is a project which tries to link up the connected but unused hard drives of millions of computers around the world, to create a sort of distributed Internet that no one really controls. Now, we've had distributed computing before, of course. We use it for everything from Skype to the search for extraterrestrial life. But you add distributed computing and powerful encryption -- that's very, very hard to censor and control. Another called MaidSafe works on similar principles. Another called Twister, and so on and so on. As of 2015, "The Darknet" is often used interchangeably with "The Dark Web". All darknets require specific software installed or network configurations made to access them. Two typical darknet types are friend-to-friend networks (usually used for file sharing with a peer-to-peer connection) and anonymity networks such as Tor via an anonymized series of connections. Tor which can be accessed via a customized browser from Vidalia, aka the Tor browser bundle or alternatively via a proxy server configured to perform the same function. Tor can also provide anonymity to websites and other servers. Servers configured to receive inbound connections only through Tor are called hidden services. Rather than revealing a server's IP address (and thus its network location), a hidden service is accessed through its onion address. The Tor network understands these addresses and can route data to and from hidden services, even those hosted behind firewalls Tornetwork address translators (NAT), while preserving the anonymity of both parties. Hidden services have been deployed on the Tor network since 2004. Other than the database that stores the hidden-service descriptors, Tor is decentralized by design; there is no direct readable list of all hidden services, although a number of hidden services catalog publicly known onion addresses. • Behind the World of Online Assassination Betting http://beforeitsnews.com/politics/2015/06/behind-the-world-of-onlineassassination-betting-2718912.html • Tor Metrics — Estimated number of clients in the Tor network https://metrics.torproject.org Tor ist ein Netzwerk zur Anonymisierung von Verbindungsdaten. Es wird für TCP-Verbindungen eingesetzt und kann für Web-Browsing, Instant Messaging, IRC, SSH, E-Mail, P2P und anderes benutzt werden. Basierend auf sogenanntem Onion-Routing schützt Tor seine Nutzer vor der Analyse des Datenverkehrs. Die ersten Ideen für Tor stammen aus dem Jahr 2000. In der Anfangszeit von 2001 bis 2006 wurde Tor durch das United States Naval Research Laboratory mit Unterstützung des Office of Naval Research (ONR) und der Defense Advanced Research Projects Agency (DARPA),unterstützt. Die weitere Entwicklung wurde vom Freehaven-Projekt unterstützt. Die Electronic Frontier Foundation (EFF) unterstützte die Entwicklung von Tor zwischen dem letzten Quartal 2004 bis ins späte Jahr 2005 hinein. 2011 wurde das Tor-Projekt von der Free Software Foundation mit dem Preis für gesellschaftlichen Nutzen (Social Benefit) ausgezeichnet. Als Grund wurde angegeben, dass Tor weltweit ca. 36 Millionen Menschen unzensierten Zugang zum Internet mit der Kontrolle über Privatsphäre und Anonymität ermöglicht. Tor hat sich als sehr wichtig für die Oppositionsbewegungen im Iran und in Ägypten erwiesen. 2012 finanzierte sich das Projekt zu etwa 60% aus Zuwendungen der US-Regierung und zu 40% aus privaten Spenden. 2014 machte der Fall des Erlanger Studenten Sebastian Hahn eine grössere Öffentlichkeit und insbesondere den gerade tagenden NSA-Untersuchungsausschuss darauf aufmerksam, dass die NSA neben der Bundeskanzlerin auch den Betreiber eines Tor-Knotens überwacht. Seit Ende Oktober 2014 ist Facebook über eine eigene Adresse im Tor-Netzwerk erreichbar (https://facebookcorewwwi.onion ), um damit den Zugang für Menschen zu erleichtern, in deren Ländern der Zugang zu Facebook durch Zensur erschwert wird. https://ahmia.fi/search/ http://www.wired.com/2014/04/grams-search-engine-dark-web/ https://de.wikipedia.org/wiki/Tor_(Netzwerk) Mit dem Internet of People sei darauf hingewiesen, dass anhand des Datenverkehrs und Informationsaustausches auf dem Internet auch die Beziehungen zwischen Personen als Netz angezeigt werden können. XING www.xing.com will das berufliche und geschäftliche Netzwerk zu einer aktiv genutzten Ressource machen. Dank der erweiterten Funktionen für Kontakt-Suche und –Management entdecken Mitglieder auf der Plattform Geschäfts- und Fachleute, Chancen sowie auf sie zugeschnittene Angebote. Business 2.0/CNN Money bezeichnet die Open Business Club AG als „one of the world’s hottest Web 2.0 startups“. Red Herring zählt das Unternehmen zu den „Top 100 Unternehmen in Europa“. Seit November 2003 ist die Zahl der Mitglied kontinuierlich gestiegen. Ende September 2006 hat die NetworkingPlattform knapp 1,5 Millionen Mitglieder in allen Staaten der Welt und stellt zwischen ihnen Abermillionen von Verbindungen her. Das amerikanische Pendent zu XING ist die Business Plattform LinkedIn (http://www.linkedin.com ). Ähnliche Angebote gibt es zum Auffinden von ehemaligen Klassenkameraden (www.classmates.com , www.klassenkameraden.ch ). Mittlerweile am bekanntesten ist die Soziale Netzwerk Plattform Facebook. Im Januar 2012 verzeichnete Facebook weltweit rund 845 Millionen aktive Nutzer , 2009 waren es noch 200 Millionen. In der Schweiz werden im März 2012 rund 2.8 Millionen Facebook-Nutzer gezählt http://www.socialbakers.com/facebook-statistics/switzerland . Die Social Media Plattform von Google heisst Google+ . Sie soll im März 2012 weltweit mehr als 90 Millionen Nutzer haben. Wolframalpha ist nicht nur eine sehr interessante Plattform zum Lösen von Rechenaufgaben. Wolframalpha liefert auch Definitionen, berechnet Distanzen und beantwortet Fragen zu verschiedensten Themen. Ein Demonstrator von Wolframalpha zeigt an, was man alles aus seinen Facebook Daten herauslesen kann. NZZ, 8.9.2014, Nikolai Thelitz, Twitter-Analyse, Ungleiches Gezwitscher aus dem Parlament http://www.nzz.ch/schweiz/ungleiches-gezwitscher-aus-dem-parlament-1.18378048 92 von 246 Parlamentariern sind auf dem Kurznachrichtendienst Twitter aktiv. Eine Analyse der NZZ zeigt, wer sich mit wem vernetzt und welche Parteien stark vertreten sind. NZZ, 26.6.2014, Studie - Die einflussreichsten «Twiplomaten» http://www.nzz.ch/mehr/digital/die-einflussreichsten-twiplomaten-1.18330942 Die Agentur Burson-Marsteller (B-M) führte die Studie «Twiplomacy» http://twiplomacy.com durch, die aufzeigt, wie Führungspersönlichkeiten Twitter erfolgreich als Machtinstrument nutzten. Dafür wertete B-M Anfang Juni dieses Jahres zur Untersuchung der Twitternutzung führender Politiker weltweit 644 Accounts in 161 Ländern aus. Das Ergebnis: Mehr als 83 Prozent der Regierungen von Uno-Staaten sind auf Twitter vertreten, 68 Prozent ihrer Regierungschefs und Staatsoberhäupter pflegen einen persönlichen Account Crowdsourcing ist eine Form der Arbeitsteilung und ein Trend mit noch nicht abschätzbaren Auswirkungen. • Crowd = Gedränge, Menschenmenge, Menge, Ansammlung [von Leuten], Zuschauermenge, [Menschenauflauf], Schar, Horde, Volksauflauf, Publikum, Gewühle, Volksmenge, Sippschaft [Bande], Völkchen • Crowdsourcing bezeichnet die Auslagerung traditionell interner Teilaufgaben an eine Gruppe (freiwilliger) User, z. B. über das Internet. Diese Bezeichnung ist an den Begriff Outsourcing angelehnt, die Auslagerung von Unternehmensaufgaben und Unternehmensstrukturen an Drittunternehmen. http://de.wikipedia.org/wiki/Crowdsourcing Crowdsourcing Informationsquellen: • https://de.wikipedia.org/wiki/Crowdsourcing • http://www.crowdsourcing.org • http://go-crowdsourcing.de • http://www.crowdeffect.ch • http://dailycrowdsource.com Übersicht der deutschsprachigen Crowdsourcing Plattformen http://crowdcommunity.de/crowdsourcing-a-z Gesichtserkennung und Werbung mittels «Facial Composites» Gesichtserkennung bezeichnet die Analyse der Ausprägung sichtbarer Merkmale im Bereich des frontalen Kopfes, gegeben durch geometrische Anordnung und Textureigenschaften der Oberfläche. http://www.face-rec.org/databases TEDGlobal 2013, Alessandro Acquisti: What will a future without secrets look like? Experiment on Carnegie Mellon University campus. We asked students who were walking by to participate in a study, and we took a shot with a webcam, and we asked them to fill out a survey on a laptop. While they were filling out the survey, we uploaded their shot to a cloud-computing cluster, and we started using a facial recognizer to match that shot to a database of some hundreds of thousands of images which we had downloaded from Facebook profiles. By the time the subject reached the last page on the survey, the page had been dynamically updated with the 10 best matching photos which the recognizer had found and we asked the subjects to indicate whether he or she found themselves in the photo. The computer had found them in one out of tree people. So essentially, we can start from an anonymous face, offline or online, and we can use facial recognition to give a name to that anonymous face thanks to social media data. By combining the social media data with data from U.S. government social security, and we ended up predicting social security numbers for 27% of the students. Facebook’s face recognition http://online.wsj.com/news/articles/SB10001424052702304778304576373730948200592 20 Feb 2015 World News BBC Click, The tech behind facial recognition http://www.bbc.co.uk/programmes/p02k91d2 (6min) From the system that can scan millions of faces in real time and compare them to a database, to the prototype glasses that could help police officers identify suspects, BBC Click's Spencer Kelly looks at the technology behind facial recognition. Im Internet bezeichnet Personalisierung die Zuordnung von Merkmalen zu einer Person und die Anpassung von Programmen, Diensten oder Informationen an die persönlichen Vorlieben, Bedürfnisse und Fähigkeiten dieser Person. Von einer Personalisierung erhofft sich der Anwender eine bequemere Nutzung eines Programms oder Angebotes. Unternehmen versuchen durch Personalisierung, Dienste oder Waren anzubieten, die den tatsächlichen oder vermuteten Präferenzen der Benutzer entsprechen. Personalized Content • Viele Online-Shops enthalten Empfehlungsdienste, welche auf den aktuellen Besucher optimal angepasste Angebote einblenden ("Kunden, die x gekauft haben, kauften auch y"). Personalized Advertising • Die personalisierte Auslieferung von Werbung zur Reduktion des Streuverlustes ist das Grundprinzip bei Google Werbungen Personalized Pricing • Unter personalisierter Preisgestaltung versteht man die Unterbreitung von Angeboten mit an den Besucher angepassten Preisen. Die Preisanpassung erfolgt basierend auf den Kenntnissen über die Besucher (z.B. Apple Nutzer vs. Windows Nutzer; wiederkehrende Besucher vs. Erstbesucher). • Die Zeit: Personalisierte Angebote als letzte Möglichkeit, den Umsatz zu steigern http://www.zeit.de/wirtschaft/2014-10/absolute-preisdiskriminierung/seite-2 Was alles aus dem Internt über Personen in Erfahrung gebracht warden kann, wird in einem Video von Febelfin sehr schön illustriert: https://www.febelfin.be/en/dave-campaign Dave, a grey haired man with a spiritual look on his face, is a fortune-teller. Or better said: he pretends to be a fortune-teller. In fact, he is an actor who constantly gets his information from a small microphone in his ear. The people who provide him with information, are hackers wearing a balaclava and hiding behind a shabby curtain. They are constantly screening public websites for information about the unsuspecting visitors waiting in line for a consultation with this medium. The things they find, are truly spectacular. • Most people indeed spend a lot of time on het internet and share a substantial amount of information about themselves through, for example, social networks. On the internet, you find holiday pictures and family portraits by the hundreds, but also personal data such as a person’s age, address, leisure activities, etc.