List

1. Sumber dari file txt di Internet

Pada latihan sebelumnya kita mencoba meringkas teks menggunakan gensim (link). Pada kesempatan ini sumber teks berasal dari halaman web. Untuk itu kita perlu install paket “requests” untuk akses dari web. gunakan pip untuk install request.

pip install requests

Setelah itu, buatlah program sederhana berikut ini

import requests # Akses data melalui Internet from gensim.summarization.summarizer import summarize text=requests.get("http://www.gutenberg.org/files/49679/49679-0.txt").text # SUmber data dengan memberi petik pada file txt print(summarize(text)) # Menampilkan Hasil

2. Mengambil data dari HTML

Dalam link berita di kompas, ketika kita buka, maka kita akan medapatkan header, footer dan link lain. Kita akan mengambil konten berita saja dari halaman web. Paket ython yang akan kita gunaka adalah BeautifulSoup. Untuk itu kita akan menginstall paket dengan menggunakan PIP

PIP install bs4

Setelah instalasi selesai, kita akan mencoba melakukan mengambil raw data dari kompas.com. Buatlah program sederhana dengan mana crawling_1.py

import requests URL = "URL = "https://properti.kompas.com/read/2020/07/27/181833421/ada-kasus-covid-19-butik-christian-dior-di-plaza-senayan-ditutup"" x = requests.get(URL) print(x.content)

Jalankan program dengan perintah

python crawling_1.py

Dari hasil query, kita akan mendapatkan raw data. Data ini masih susah untuk dimengerti, oleh karena itu kita akan menggunakan BeautifulSoup

import requests from bs4 import BeautifulSoup URL = "https://properti.kompas.com/read/2020/07/27/181833421/ada-kasus-covid-19-butik-christian-dior-di-plaza-senayan-ditutup" #x = requests.get(URL).text # atau bisa juga ditulis dengan #x = requests.get(URL) #soup = BeautifulSoup(x.text, "lxml") x = requests.get(URL) soup = BeautifulSoup(x.content, "lxml") hasil = soup.find_all("div",{'class':'read__content'}) data='' for script in soup.find_all('script'): script.extract() paragraphs = soup.find_all('p') article_content = '' #memasukkan sentence kedalam variabel for p in paragraphs: article_content += p.text print (article_content)

Jalankan program dengan perintah

python crawling_1.py

akan ada peringatan

bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

untuk itu kita harus install paket lxml, gunakan PIP untuk menginstall lxml

pip install lxml

Ketika kita jalankan dengan Dengan paket BeautifulSoup, hasil yang didapatkan kita bisa melihat struktur HTML

JAKARTA, KOMPAS.com – Manajemen butik Christian Dior menutup tokonya yang berada di lantai 1 Plaza Senayan, Jakarta.

Penutupan toko sudah dilaksankan sejak Sabtu (25/7/2020), karena temuan kasus positif Covid-19.

Ketua Umum Asosiasi Pengelola Pusat Belanja Indonesia (APPBI) Stefanus Ridwan membenarkan hal tersebut.

“Ditutup, yang ditutup tokonya,” kata Stefanus kepada Kompas.com, Senin (27/7/2020).

Dalam pernyataannya, manajemen Dior Indonesia mengatakan, toko akan ditutup hingga Selasa (28/7/2020).

Baca juga: Ruang Isolasi Darurat Covid-19 SOR Tri Dharma Diresmikan

Manajemen mengatakan bahwa seluruh pihak yang telah melakukan kontak langsung dengan pasien positif Covid-19 saat ini sedang berada dalam karantina.

Pengelola juga mengatakan, mereka akan melakukan tes dan melakukan disinfeksi di lokasi toko.

Kasus Covid-19 di Indonesia terus bertambah. Hingga hari ini, total ada 100.303 kasus Covid-19 di Tanah Air sejak awal pandemi. Ini akibat adanya penambahan 1.525 kasus baru Covid-19 dalam 24 jam terakhir.

Pemerintah juga mengumumkan kabar duka dengan adanya penambahan pasien Covid-19 yang meninggal dunia.

Baca juga: Kawasan Padat Penduduk Berisiko Lebih Tinggi Tularkan Covid-19

Ada penambahan 57 pasien Covid-19 yang tutup usia dalam periode 26 – 27 Juli 2020. Hal ini menyebabkan total pasien Covid-19 yang meninggal mencapai 4.838 orang.

Selain itu, pemerintah juga mengumumkan bahwa masih ada 37.292 pasien Covid-19 yang saat ini masih menjalani perawatan.
]

Untuk meringkas text yang sudah kita dapatkan dari content web, gunakan perintah summarize

print(summarize(article_content))