02/10/2012 Deixe um comentário
Material de Otimização CUDA, do Prof. PhD Fernando Magno Quintão Pereira
http://homepages.dcc.ufmg.br/~fernando/classes/gpuOpt
http://homepages.dcc.ufmg.br/~fernando/classes/gpuOpt/jai.pdf
Porque nós ficamos com as galinhas
02/10/2012 Deixe um comentário
Material de Otimização CUDA, do Prof. PhD Fernando Magno Quintão Pereira
http://homepages.dcc.ufmg.br/~fernando/classes/gpuOpt
http://homepages.dcc.ufmg.br/~fernando/classes/gpuOpt/jai.pdf
09/30/2011 Deixe um comentário
Título:
Um estudo do uso eficiente de programas em placas gráficas
Autora:
Patricia Akemi Ikeda
Mestrado em Ciência da Computação
Instituto de Matemática e Estatística
Universidade de São Paulo
Resumo:
Inicialmente projetadas para processamento de gráficos, as placas gráficas
(GPUs) evoluíram para um coprocessador paralelo de propósito geral de alto
desempenho. Devido ao enorme potencial que oferecem para as diversas áreas
de pesquisa e comerciais, a fabricante NVIDIA destaca-se pelo pioneirismo
ao lançar a arquitetura CUDA (compatível com várias de suas placas), um
ambiente capaz de tirar proveito do poder computacional aliado à maior facilidade
de programação.
Na tentativa de aproveitar toda a capacidade da GPU, algumas práticas
devem ser seguidas. Uma delas consiste em manter o hardware o mais ocupado
possível. Este trabalho propõe uma ferramenta prática e extensível que
auxilie o programador a escolher a melhor configuração para que este objetivo
seja alcançado.
Material:
09/06/2011 Deixe um comentário
Título: Wrapper code generation for easy implementation of video processing
operators
Palestrante: Daniel Oliveira Dantas
Doutor em Ciência da Computação – DCC-IME-USP
Biografia do palestrante:
Daniel tem Doutorado, Mestrado e Bacharelado em Ciência da Computação pelo
IME-USP. O foco de seu trabalho é em processamento de imagens. Trabalhou com
processamento de imagens de microarray durante o mestrado. Durante o doutorado,
trabalhou com processamento de vídeo em tempo real, usando GPU para acelerar o
processamento.
Resumo:
No seminário será apresentado o artigo “Automatic generation of wrapper code for
video processing functions”. O processamento de vídeo com GPU’s requer o uso de
uma API como OpenGL ou CUDA. Avanços recentes são bibliotecas como GPUCV e
OpenVidia, com operadores rápidos que aproveitam o poder de processamento das
GPU mas escondem do usuário a complexidade na sua programação. Porém, a
implementação de novos operadores nessas bibliotecas não é tão simples quanto
possível e em GPUCV é limitada por algumas templates embutidas na biblioteca. O
artigo descreve um gerador de código que, a partir de dois tipos de diretivas
inseridas no código fonte dos shaders, gera código wrapper com todas as chamadas
às API OpenGL ou CUDA necessárias antes da chamada ao shader, simplificando a
criação e manutenção de uma biblioteca de processamento de vídeo. A biblioteca
proposta tem desempenho melhor que a GPUCV em quase todos os
operadores testados.
Material do Seminário:
Confira nossa série completa de Seminários
06/15/2011 1 Comentário
TEMA: APU – Unidade de Processamento Acelerada. Nova tecnologia da AMD que une CPU e GPU no mesmo silício, caracterísiticas técnicas e quais benefícios esta nova arquitetura traz ao usuário final.
Data e Local: 22/06 as 14h30, no auditório Prof. Fadigas do Centro de Computação Eletrônica da USP (CCE-USP)
Av. Professor Luciano Gualberto, 71, tv. 3, Cidade Universitária, Butantã, São Paulo – SP – CEP 05508-010 Tel e Fax: (55-11) 3091-6400
Palestrante: Roberto Brandão
Roberto Brandão é formado em Ciência da Computação pela Universidade Federal de Ouro Preto (UFOP) e Doutor em Computação Distribuída pela Universidade de Campinas (UNICAMP). Assumiu a gerência de tecnologia da AMD Brasil em junho de 2004. Atualmente é responsável pela gerencia do time de engenheiros da AMD que promovem o desenvolvimento e implementação de tecnologia AMD junto aos parceiros e clientes corporativos e governamentais em toda a America Latina.
Transmissão da palestra por IPTV: www.iptv.usp.br
05/31/2011 Deixe um comentário
Tesla Business Development Manager – Latin America NVIDIA
Arnaldo Tavares
Palestrante:
05/24/2011 Deixe um comentário
Seminário pertencente à Série de Seminários de Programação para GPGPU da USP.
Descrição:
Modelagem Atmosférica usando GPU
Material do Seminário:
Confira nossa série completa de Seminários.
05/18/2011 1 Comentário
Seminário de Programação para GPGPU
Título: Modelagem Atmosférica usando GPU
Palestrante: Pedro da Silva Peixoto
Doutorando em Matemática Aplicada – MAP-IME-USP
Local:
IME-USP, Sala 254, Bloco A
Rua do Matão, 1010 – Cidade Universitária – São Paulo -
SP – Brasil
Resumo:
Tendo em vista uma análise de custo-benefício do uso de GPU
em aplicações de grande porte, vamos discutir alguns testes
realizados em GPU para modelos meteorológicos. Analisaremos
o custo de tradução de códigos (passagem de códigos de
Fortran/C para a linguagem CUDA) e veremos alguns métodos de
tradução automática e métodos de auto-paralelismo.
Confira nossa série completa de Seminários
05/17/2011 Deixe um comentário
Nvidia lança nova placa Tesla M2090, dita como o mais rápido processador paralelo para computação de alto desempenho do mundo.
Até então, a classe M da Tesla era composta pelas placas Tesla M2050 (3GB) e Tesla M2070 (6GB). Baseados na arquitetura Fermi, elas apresentam features como: cache L1/L2, ECC memory error protection, suporte a C/C++ e OpenCL, além de possuirem 448 CUDA cores e mais de 1TFlop de desempenho de pico.
A nova Tesla M2090 (6GB) provê potencial máximo da arquitetura Fermi ao possuir 512 cores ativos, além de fornecer 1330 gigaflops em desempenho de pico, um aumento de quase 30% em relação aos modelos anteriores. Ideal para processamento de alto desempenho, a placa opera a um clock de 1.3GHz em cada core, comparado a 1.15GHz do core da M2070.
A Tesla M2090 já foi adotada pela HP em seus novos servidores Proliant SL390 G7 4U, que podem conter até 8 placas desse tipo e 2 CPUs.
A nova Tesla já pode ser encontrada para venda por um valor na faixa de £ 3563.
Maiores detalhes sobre a arquitetura Fermi podem ser encontrados na apresentação do Arnaldo Tavares da NVidia realizada em seminário na USP.
05/12/2011 Deixe um comentário
Dear colleagues,
The 32nd edition of CILAMCE – Iberian-Latin American Congress
on Computational Methods in Engineering will be held in Ouro
Preto, Brazil, from 13th to 16th of November, 2011.
We would like to invite you to participate in the third edition of
the mini-symposium “High Performance Computing on Graphics
Hardware (GPU)”, which we are organizing in this conference.
Prospective authors can get more information and submit their
abstracts through the conference page,
http://www.acquacon.com.br/cilamce2011
The deadline for abstract submission is May 31st, 2011.
We are looking forward to meeting you in Ouro Preto!
Kindest regards,
Euclides Mesquita
Josué Labaki
Luiz Otávio Saraiva Ferreira
05/10/2011 Deixe um comentário
Seminário pertencente à Série de Seminários de Programação para GPGPU da USP.
Descrição:
Material do Seminário:
Video:
http://www.youtube.com/p/5ADBE821B1DEE905?hl=pt_BR&fs=1
Parte 1:
Parte 2:
05/05/2011 1 Comentário
Título: String-matching em GPUs
Palestrante: Jônatas Lopes de Paiva
Bacharel em Ciência da Computação – Universidade Federal de Lavras
Mestrando em Ciência da Computação – DCC-IME-USP
Hora e Data: 16h, sexta-feira, 6 de maio de 2011
Local:
IME-USP, Sala 254, Bloco A
Rua do Matão, 1010 – Cidade Universitária – São Paulo -
SP – Brasil
Resumo:
Com o surgimento das GPUs de propósito geral (GPGPUs) também
surgiram novos caminhos para diversas áreas da computação.
Métodos de String-matching são cruciais para áreas como
biologia computacional, bancos de dados, etc.
Durante este seminário iremos mostrar alguns métodos
utilizados para realizar a busca em strings em GPUs.
Confira nossa série completa de Seminários
05/02/2011 1 Comentário
Primeira parte de uma série de seminários na USP sobre otimização de código e outras considerações de desempenho em CUDA e sistemas paralelos.
Conteúdo:
- Revisão da Arquitetura CUDA
- Avaliação de Desempenho
- Execução Assíncrona e Paralela
- Transferência de Dados CPU-GPU
- Kernels Paralelos
Material do Seminário:
Playlist da Apresentação:
http://www.youtube.com/p/885F67F7715F8F3F?hl=pt_BR&fs=1
Introdução:
Métricas de Desempenho:
04/25/2011 2 Comentários
Título: Considerações de Desempenho em CUDA – Parte 1
Palestrante: Thársis T. P. Souza
Centro de Computação Eletrônica – CCE-USP
Biografia do palestrante:
Engenheiro de Computação – UNICAMP
Mestrando em Ciência da Computação – IME-USP
Hora e Data: 16h, sexta-feira, 29 de abril de 2011
Local: IME-USP, Sala 254, Bloco A
Rua do Matão, 1010 – Cidade Universitária – São Paulo – SP – Brasil
Resumo:
Cada vez mais, arquiteturas modernas de GPU expõe maior capacidade e flexibilidade em programação para propósito geral.
Desse maior poder, decorre maior responsabilidade na utilização dos recursos disponíveis.
Nessa mini-série de seminários, cobriremos os principais aspectos e considerações de desempenho em CUDA em uma arquitetura moderna de GPU.
Nesta primeira parte, os seguintes assuntos serão tratados:
- Revisão Arquitetura CUDA
- Avaliação de Desempenho
- Execução Assíncrona e Paralela
- Transferência de Dados CPU-GPU
- Kernels Paralelos
Confira nossa série completa de Seminários
04/18/2011 Deixe um comentário
04/12/2011 Deixe um comentário
Artigo: An analytical model for a GPU architecture with memory-level and thread-level parallelism awareness
Para poder entender os gargalos das aplicações para GPGPU foi criado este modelo analítico simplificado que estima o tempo de execução de kernels massivamente paralelos.
O modelo se baseia no número de requisições de memória concomitantes e introduz duas novas métricas, o paralelismo de memória do sistema (MWP) e o paralelismo de execução de código (CWP). Todas as aplicações do modelo são escritas em CUDA C.
Nosso colega Paulo Carlos da USP fez um excelente resumo do artigo em um seminário apresentado.
Confira nossa série completa de Seminários.
04/11/2011 Deixe um comentário
04/06/2011 Deixe um comentário
Título:
Modelo Analítco de Performance para GPUs
Palestrante: Paulo Carlos Ferreira dos Santos
Aluno de Mestrado do IME USP
Biografia:
Engenheiro Eletricista – FESP
Mestrando em Ciência da Computação – DCC IME USP
Local:
IME-USP, Sala 254A
Rua do Matão, 1010 – Cidade Universitária – São Paulo – SP – Brasil
Data:
08/04/2011
16h – 17h30
Resumo:
Para poder entender os gargalos das aplicações para GPGPU foi criado este modelo analítco simplificado que estima o tempo de execução de kernels massivamente paralelos.
O modelo se baseia no número de requisições de memória concomitantes e introduz duas novas métricas, o paralelismo de memória do sistema (MWP) e o paralelismo de execução de código (CWP).
Todas as aplicações do modelo são escritas em CUDA.
O seminário é um resumo do artigo: An analytical model for a GPU architecture with memory-level and thread-level parallelism awareness
Confira nossa série de Seminários
04/05/2011 Deixe um comentário
O Centro Nacional de Supercomputação (CESUP) da UFRGS oferece de 2 a 26 de maio o curso à distância Computação Distribuída usando a Linguagem CHARM++.
São 20 horas-aula abordando a linguagem CHARM++, o processamento de alto desempenho e a programação paralela, entre outros conteúdos.
Os ministrantes são os professores Marcelo Portes de Albuquerque, do Centro Brasileiro de Pesquisas Físicas, e Luís Fernando de Oliveira, da Universidade do Estado do Rio de Janeiro.
O curso é oferecido em vídeo-aulas, acompanhadas de slides, listas de exercícios, chats com os professores e acesso ao cluster do CESUP para treinamento.
As inscrições podem ser feitas pelo site www.cesup.ufrgs.br. Maiores informações pelo telefone (51)3308.3350.
Charm++ é uma linguagem de programação paralela orientada a objeto baseada em C++.
Orientada a mensagem, ela fornece uma clara separação entre objetos sequenciais e paralelos.
Artigo sobre Charm++: CHARM++: a portable concurrent object oriented system based on C++
04/01/2011 3 Comentários
Hoje realizei um seminário na USP dando uma visão geral e condensada sobre computação de alto desempenho utilizando GPU.
Apresentação disponivel em: Introducao a Computacao de Alto Desempenho Utilizando GPU
03/30/2011 1 Comentário
Local do evento alterado para Sala Jacy Monteiro Bloco A, IME-USP.
Título: Computação de alto desempenho utilizando CUDA
Palestrante: Thársis T. P. Souza
Analista de Sistemas
Centro de Computação Eletrônica – CCE-USP
Biografia do palestrante:
Engenheiro de Computação – UNICAMP
Mestrando em Ciência da Computação – DCC-IME-USP
Hora e Data: 16h, sexta-feira, 01 de abril de 2011
Local:
IME-USP, Sala Jacy Monteiro, Bloco A
Rua do Matão, 1010 – Cidade Universitária – São Paulo – SP – Brasil
Resumo:
Arquiteturas de processamento gráfico modernas possuem centenas de cores
executando dezenas de milhares de threads paralelas.
Com a crescente capacidade de programação dessas arquiteturas, as GPUs
recentes oferecem grande potencial de speedup para uma variedade de aplicações
de propósito geral comparadas com CPUs.
Nesse seminário, apresentaremos uma visão geral do funcionamento interno
dessa arquitetura e sua programação, com o foco nas placas gráficas NVIDIA
Fermi e o modelo de programação CUDA.