お問い合わせ
mark down 記述からテキストのみを抜き出す方法をChatGPTに聞いてみる
投稿日:2023-08-29
@prompta
(株)ブロックセブンスソフトウェア
Js
markdown
python
ChatGPT

# 背景

mark down記述の情報サイトを作っていて、サイトのメタ情報に記述以外のテキスト情報を
抽出したくて聞いてみました。

# 質問内容

プログラミングの質問に関しては総じて英語で質問したほうが
正確性が高いように思うので、以下のように入力してみます。

How to extract text only from markdown

# 回答

Extracting text from Markdown involves parsing the Markdown content and converting it into plain text, while discarding any formatting, links, images, and other Markdown-specific elements. You can achieve this using libraries available in various programming languages. Below, I'll provide examples in Python using the markdown library and JavaScript using remarkable.

Python using markdown library:

You can use the markdown library to parse and convert Markdown to plain text. If you haven't installed the library yet, you can install it using pip:

pip install markdown

Here's a simple Python script to extract text from a Markdown file:

import markdown

def extract_text_from_markdown(markdown_content):
    html_content = markdown.markdown(markdown_content)
    plain_text = ''.join(html_content.itertext())
    return plain_text

# Read Markdown content from a file
with open('your_markdown_file.md', 'r') as file:
    markdown_content = file.read()

plain_text = extract_text_from_markdown(markdown_content)
print(plain_text)

JavaScript using remarkable library:

For JavaScript, you can use the remarkable library to parse and convert Markdown to plain text. You can install it using npm:

npm install remarkable

Here's an example JavaScript code snippet to extract text from Markdown using remarkable:

const Remarkable = require('remarkable');
const md = new Remarkable();

function extractTextFromMarkdown(markdownContent) {
    const htmlContent = md.render(markdownContent);
    const div = document.createElement('div');
    div.innerHTML = htmlContent;
    return div.textContent || div.innerText;
}

// Example Markdown content
const markdownContent = `
# Heading 1

This is some **bold** *italic* text.

- List item 1
- List item 2

[Link to Google](https://www.google.com)
`;

const plainText = extractTextFromMarkdown(markdownContent);
console.log(plainText);

Remember to replace the markdownContent with your actual Markdown content.

Both of these examples demonstrate how to convert Markdown content to plain text, effectively extracting the text and discarding the Markdown formatting and other elements.

# 所感

言語を指定していませんがばっちりpythonとjavascriptのコード付きで回答してくれました!
正確性は日本語で質問するより改善されている様に思います。